CN101729075A

CN101729075A - 一种数据压缩、解压缩的方法和装置

Info

Publication number: CN101729075A
Application number: CN200810201042A
Authority: CN
Inventors: 邓冶华; 邱旭军; 蔡世光
Original assignee: Inventec Appliances Shanghai Corp
Current assignee: Inventec Appliances Shanghai Corp
Priority date: 2008-10-10
Filing date: 2008-10-10
Publication date: 2010-06-09

Abstract

本发明公开了一种数据压缩的方法，包括：将采用标准标码的文本中的各文字片断按顺序逐个取出，分别在预先设置的字典中查找与所述各文字片断匹配的字典编码；将所述各文字片断对应的压缩后编码按文本中原先的顺序组合，得到所述采用标准编码的文本的压缩包文件。以及公开了一种数据压缩的装置，包括：字典模块，查询匹配模块和压缩包生成模块。本发明还同时公开了一种数据解压缩的方法和装置。本发明提供的数据压缩的方法和装置，能够实现对采用标准编码的文本内容的有效压缩。本发明提供的数据解压缩的方法和装置，能够实现对压缩包文件的解压缩，并且在进行解压缩时，还能够实现加密保护文本内容的作用。

Description

一种数据压缩、解压缩的方法和装置

技术领域

本发明涉及移动通信中的编码技术，尤其涉及一种数据压缩的方法和装置，以及一种数据解压缩的方法和装置。

背景技术

随着移动通信技术的快速发展，手机迅速进入了人们的日常生活。同时，手机的功能也越来越丰富，除了传统的电话功能，人们也在同时使用手机进行各种其它应用，其中最普遍的就包括有关文字或文本的各种应用，并因此不可避免的经常涉及到文字资料的生成、收发或保存的问题。

目前，当利用手机在本地存储文字资料，或者经由通信网络收发文字资料时，几乎都是采用标准的编码方式。当需要对文字资料进行处理时，手机利用预先设定的所述标准编码方式对文字资料进行编码，然后进行保存、发送；或者接收采用所述标准的编码方式进行编码后的数据，进行解码后得到文字资料。常见的汉字的标准编码方式包括：GB、Big5和Unicode等，英文的标准编码方式则包括：ASCII、Unicode等。当采用上述的标准编码方式(以中、英文为例)时，每个英文字符或英文标点符号的编码长度为一个字节(Byte)，每个中文字符或中文标点符号的编码长度为2个字节。

这种编码方式为每个字符设定相应的编码(汉字编码是对每个汉字字符设定相应的编码)，虽然该编码方式简单有效，但单位长度的标准编码所能够携带的信息量有限——即，每单位长度的英文标准编码仅能表示一个英文字符，每单位长度的中文标准编码仅能表示一个汉字字符——如果需要表述更多的信息，则编码后形成的码流长度就会更长。一个明显的例子就是手机短信：大多数用户在使用手机时，都会感觉到短信字数的限制所造成的不便——每条英文短信一般不超过160个字母，而中文短信更是最多不超过70个汉字。一旦编写的短信超过了160个英文字母或70个汉字字符，手机就会自动按照最大允许的长度进行截取后，将其分割成两条或更多条短信分别发送。

同时，由于当前无线通信中的网络带宽以及手机中的存储空间都相对有限，因此必须尽量提高网络带宽和存储空间的利用效率，而在通信和计算机领域，提高网络带宽及存储空间的利用效率的常用方法就是对编码数据进行压缩。

目前主流的压缩算法主要是基于Huffman的压缩算法(如计算机中常用的压缩软件WinZip和WinRar等都是基于Huffman的压缩算法实现的)，基于Huffman的压缩算法可以采取多种计算方法，但无论哪一种，其原理基本相同：

首先根据待压缩的编码数据产生一个索引表(Table)，然后根据该索引表对编码数据进行压缩，且产生的该Table占用的空间大小只与选定的压缩算法的计算方法有关，而与编码数据自身的长度无关——即只有采用不同的计算方法，产生的Table的长度才会发生变化；

其次，将压缩后得到的数据与所述Table一起(即封装成为一个压缩包)发送给接收端，而接收端再根据所述Table，对所述压缩后得到的数据进行解压缩，还原出编码数据。

例如：假设采用某种基于Huffman压缩算法的计算方法，对于长度为10MB的编码数据产生的Table是1KB；则，压缩1MB编码数据产生的Table也是1KB，压缩1KB编码数据产生的Table还是1KB；假设压缩率都是60％，则对于上述3段编码数据，其压缩后的数据长度分别为：

10,000KB×0.7+1KB＝7001KB；

1,000KB×0.7+1KB＝701KB；

1KB×0.7+1KB＝1.7KB；

可见，如果采用上述方法对采用标准编码格式的文本内容进行压缩时，对于长度为1KB的编码数据，压缩后数据所占用的空间反而比压缩前大小为1K的编码数据更大。可见，所述基于Huffman的压缩算法并不适用于对较短的内容进行压缩。而手机应用中出现的文字内容，通常都在几KB到几百KB的长度范围，而普通的纯文字短信更是只有不到1KB的长度，显然这种压缩算法并不适合在移动终端上应用。

由上述可见，现有的压缩方法无法对采用标准编码方式的文本内容实现有效压缩。

发明内容

本发明实施例提供一种数据压缩的方法和装置，能够对标准编码的文本内容进行有效压缩。

本发明实施例还提供一种数据解压缩的方法和装置，能够对压缩后的文本进行解压缩，并实现加密保护功能。

为达到上述目的的第一个方面，本发明的技术方案具体是这样实现的：

一种数据压缩的方法，该方法包括：

将采用标准标码的文本中的各文字片断按顺序逐个取出，分别在预先设置的字典中查找与所述各文字片断匹配的字典编码；所述字典中包含各种文字的文字片断及其对应的字典编码，每个字典编码占用2个字节；

若字典中存在与该文字片断匹配的字典编码，则将该字典编码作为该文字片断对应的标准编码的压缩后编码；否则，在该文字片断对应的标准编码前添加标识码，并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码，所述标识码的取值与该文字片断对应的标准编码的字节数的值相等；

将所述各文字片断对应的压缩后编码按文本中原先的顺序组合，得到所述采用标准编码的文本的压缩包文件。

所述文字片断包括各种文字的单词、词组以及常用符号。

一种数据压缩的装置，该装置包括：字典模块，查询匹配模块和压缩包生成模块；

所述查询匹配模块，用于将采用标准标码的文本中的各文字片断按顺序逐个取出，分别在字典模块中查找与所述各文字片断匹配的字典编码，并将查找得到的字典编码发送给压缩包生成模块；

所述字典模块，用于保存预先建立的各种文字的文字片断所及其对应的字典编码；所述文字片断包括各种文字的单词、词组以及常用符号，且每个字典编码占用2个字节；

所述压缩包生成模块，用于接收查询匹配模块发来的所述各文字片断对应的压缩后编码，将其按原先的顺序组合得到该采用标准编码的文本的压缩包文件。

所述查询匹配模块包括：第一查询匹配单元和第二查询匹配单元；

所述第一查询匹配单元，用于在字典模块中存在与该文字片断匹配的字典编码时，将该编码作为该文字片断对应的标准编码的压缩后编码并发送给所述压缩包生成模块；

所述第二查询匹配单元，用于在字典模块中不存在与该文字片断匹配的字典编码时，在该文字片断对应的标准编码前添加标识码，并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码并发送给所述压缩包生成模块，所述标识码的取值与该文字片断对应的标准编码的字节数的值相等，所述标识码占用2个字节。

由上述的技术方案可见，本发明实施例的这种数据压缩的方法和装置，利用预先设定的字典得到文本内容对应的压缩后编码，由于西文单词由多个英文字母组成，同时中文中存在大量的两个及以上字符构成的词和词组，因此能够实现对采用标准编码的文本内容的有效压缩。

为达到上述目的的另一个方面，本发明的技术方案具体是这样实现的：

一种数据解压缩的方法，该方法包括：

按顺序逐一取出压缩包文件中的压缩后编码，分别在预先设置的字典中查找与所述各压缩后编码对应的解压缩结果；所述字典中包含各种文字的文字片断及其对应的字典编码，每个字典编码占用2个字节，且所述字典与生成压缩包文件时使用的字典相同；

若字典中存在与该压缩后编码对应的文字片断，则使用该文字片断对所述压缩后编码进行解压缩；否则，直接使用标识码之后设定长度的压缩后编码作为解压缩结果，所述设定长度与标识码的取值相等；

将所有压缩后编码的解压缩结果按照原压缩包文件中的顺序组合，得到压缩前采用标准编码的文本。

所述文字片断包括各种文字的单词、词组以及常用符号。

一种数据解压缩的装置，该装置包括：字典模块，查询匹配模块和解压缩模块；

所述字典模块，用于保存预设的字典，该字典中包含各种文字的文字片断及其对应的字典编码，每个字典编码占用2个字节，且所述字典与生成压缩包文件时使用的字典相同；

建立的各种文字的文字片断及其对应的字典编码，所述文字片断括各种文字的单词、词组以及常用符号等，每个字典编码占用2个字节；

所述查询匹配模块，用于按顺序逐一取出所述压缩包文件中的压缩后编码，分别在字典模块中查找与所述各压缩后编码对应的解压缩结果，并将查找得到的解压缩结果发送给解压缩模块；

所述解压缩模块，用于将查询匹配模块发来的所述各压缩后编码的解压缩结果，按照原压缩包文件中的顺序组合起来，得到压缩前采用标准编码的文本。

所述查询匹配模块包括：第三查询匹配单元和第四查询匹配单元；

所述第三查询匹配单元，用于在字典模块中存在与该压缩后编码对应的文字片断时，使用该文字片断对所述压缩后编码进行解压缩并将解压缩结果发送给解压缩模块；

所述第四查询匹配单元，用于根据标识码，直接使用标识码之后设定长度的压缩后编码作为解压缩结果并将解压缩结果发送给解压缩模块，所述的设定长度与标识码的取值相等，单位为字节。

由上述的技术方案可见，本发明实施例的这种数据解压缩的方法和装置，通过利用与压缩时相同的字典，能够实现对压缩包文件的解压缩，并且在进行解压缩时，如果没有压缩时使用的字典，就无法正确解压缩得到编码数据，从而能够实现加密保护文本内容的作用。

附图说明

图1为本发明实施例中数据压缩的方法的流程示意图。

图2为本发明实施例中数据压缩的装置的组成结构示意图。

图3为本发明实施例中数据传输的方法的流程示意图。

图4为本发明实施例中数据传输的系统的组成结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明实施例提供一种数据压缩的方法，其流程如图1所示，其中包括：

步骤101：将采用标准标码的文本中的各文字片断按顺序逐个取出，分别在字典中查找与所述各文字片断匹配的字典编码；所述字典中预先建立了各种文字的文字片断及其对应的字典编码，且每个字典编码占用2个字节；其中，所述文字片断可以包括各种文字的单词、词组以及常用符号等；

步骤102：若字典中存在与该文字片断匹配的字典编码，则该字典编码即为该文字片断对应的标准编码的压缩后编码；否则，在该文字片断对应的标准编码前添加标识码，并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码，且所述标识码的取值与该文字片断对应的标准编码的字节长度的值相等，所述标识码占用2个字节；

步骤103：将所述各文字片断对应的压缩后编码按原先的顺序组合，得到所述采用标准编码的文本的压缩包文件。

为了更清楚地展示本发明实施例提供的数据压缩的方法的工作流程，下面将进一步通过一个具体的应用实例进行举例说明：

假设预先建立的字典(节选该字典的一部分)中包含有如下表1所示的内容：

文字片断	字典编码
文字片断	字典编码	a	101
an	102	a	101

文字片断	字典编码
文字片断	字典编码	arrive	103
bye	1241	arrive	103
bye	1241	I	4296
in	4297	I	4296
in	4297	minutes	5496
will	13952	minutes	5496
will	13952	(英文空格)	15853
.(英文句号)	15854	(英文空格)	15853
.(英文句号)	15854	！(英文感叹号)	15855
内	22569	！(英文感叹号)	15855
内	22569	赶到	25690
分钟	35684	赶到	25690
分钟	35684	一百	36982
我	39854	一百	36982
我	39854	再见	42681
...		再见	42681

表1

A、对于一段英文文字内容：“I will arrive in 100 minutes.Bye！”，在对其进行保存时，首先将采用标准编码的上述文字内容中的各文字片断按顺序依次取出，在预先建立的如表1所示的字典中查找与各文字片断匹配的字典编码，可得在该字典中：

与文字片断I匹配的字典编码为4296；

与文字片断will匹配的字典编码为13952；

与文字片断arrive匹配的字典编码为103；

......

以此类推，直到与文字片断“！”匹配的字典编码为15855。

在上述过程中，有两点需要特别进行说明：

1)对于文字片断100，由于字典中并未定义与其对应的字典编码，因此将无法查找到与其匹配的字典编码，根据前文所述，此时会在文字片断100对应的标准编码前添加标识码，由于采用标准编码的文字片断100是由数字1对应的标准编码、数字0对应的标准编码和数字0对应的标准编码组成的，且每个数字对应的标准编码的长度为1个字节，因此该标识码应取3，用以表示该标识码之后的3个字节的内容为字典以外的内容(即采用标准编码表示的内容)；因此，所述文字片断100的字典编码即由标识码3和100所对应的标准编码共同组成；且，在所述文字片断100的字典编码中，标识码3占据的长度为2个字节，100对应的标准编码占据的长度为3个字节；

显然，对于一些较为学术性的名词或者比较生僻、不常用的单词和词组，以及一些由纯数字构成的字段(比如电话号码和银行帐号等)，一般在字典中无法预先一一定义，因此本发明实施例中利用标识码进行处理，因此，从表1中可以发现，字典中的字典编码并不是从0或1开始，而是从101开始，这是为了将1到100中的各数字用作标识码，例如：若文字内容中出现了13900000000这样的电话号码时，在字典中没有与之匹配的字典编码，此时在该表示该电话号码的标准编码前添加标识码11，用以表示该标识码之后的11个字节的内容为字典以外的内容。同时容易理解的是，表1中字典编码从101开始只是举例，由于在实际应用中很少出现大于30位的数字，因此字典编码可以从任何大于31的数字开始，表1中设定的字典编码从101开始只是为可能出现的数字预留了更大的裕量而已。

2)按照英文的书写习惯，在同一句话当中各英文单词之间，以及英文单词与数字之间，都采用空格符(英文空格)相互隔开，本发明实施例中既可以预先在字典中定义与空格符匹配的字典编码，并在进行压缩处理时用该字典编码替换空格符对应的标准编码；也可以设置一种缺省压缩模式，在进行英文文字资料的压缩处理时，忽略文字片断之间的空格符，以更进一步提高压缩比率。

仍以英文文字内容：“I will arrive in 100 minutes.Bye！”为例，如果不忽略其中的空格符，则压缩后该文字内容占据的长度为31字节；而压缩前(即采用标准编码)该文字内容占据的长度为34字节；如果采用忽略空格符的缺省压缩模式，则此时压缩后的文字内容占据的长度为21字节，可见，压缩比率得到了较大提高。

B、仍以表1为例，假设此时需要保存一段中文文字内容“我一百分钟内赶到.再见！”，由于在中文的书写习惯下，在同一句话当中，无论是中英文字符之间，还是中文字符与数字之间，通常都不使用空格相互隔开，因此本发明实施例在对中文文字内容进行压缩处理时，通常不忽略文字当中的空格符。压缩前(即采用标准编码)，该文字内容占据的长度为22字节，由于该文字内容钟不包含空格符，因此无论是否忽略文字中的空格符，其压缩后所占据的长度为16字节。

此外，在实际的文字内容中，中英文内容有时还会同时出现，为了尽量避免压缩造成的错误，根据经验，对于只包含英文和数字的文字内容，可以忽略文字当中的空格符以提高压缩比率，而对于包含中文的文字内容，则通常不忽略文字当中的空格符。应当指出，以上所述空格符的处理策略仅是基于本发明精神进行的展示和举例，并非用于限定具体的实施方式，因此在实际应用中也可以采用其他处理策略。

最后需要说明的是，本发明实施例中虽然全部采用了中英文内容的文本进行了举例，但容易理解，对于其他任何文字的文本，该方法都同样适用，下文中将不再每次进行特别说明。

本发明实施例还提供一种数据压缩的装置，该装置的组成结构如图2所示，其中包括：字典模块210，查询匹配模块220和压缩包生成模块230；

所述查询匹配模块220，用于将采用标准标码的文本中的各文字片断按顺序逐个取出，分别在字典模块210中查找与所述各文字片断匹配的字典编码，并将查找得到的字典编码发送给压缩包生成模块230；

所述字典模块210，用于保存预先建立的各种文字的文字片断及其对应的字典编码，其中，所述文字片断可以包括各种文字的单词、词组以及常用符号等；且每个字典编码占用2个字节；

所述压缩包生成模块230，用于接收查询匹配模块220发来的所述各文字片断对应的压缩后编码，将其按原先的顺序组合得到该采用标准编码的文本的压缩包文件。

其中，所述查询匹配模块220包括：第一查询匹配单元221和第二查询匹配单元222；

所述第一查询匹配单元221，用于在字典模块210中存在与该文字片断匹配的字典编码时，将该编码作为该文字片断对应的标准编码的压缩后编码并发送给所述压缩包生成模块230；

所述第二查询匹配单元222，用于在字典模块210中不存在与该文字片断匹配的字典编码时，在该文字片断对应的标准编码前添加标识码，并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码并发送给所述压缩包生成模块230，所述标识码的取值与该文字片断对应的标准编码的字节长度的值相等，所述标识码占用2个字节。

可见，本发明实施例提供的数据压缩的方法和装置，在预先设定的字典中建立各种文字片断与字典编码的对应关系，通过查找对应关系得到所述文字片断对应的字典编码，并对字典中未设置对应关系的文字片断通过在该文字片断对应的标准编码前添加标识码的方法得到其压缩后编码，由于英文单词基本由两个及以上的英文字母组成，因此相比每个字母对应一个字节长度的标准编码，本发明实施例采用两个字节的字典编码来表示一个英文单词，无疑实现了对采用标准编码的文本内容的有效压缩；对于中文文本，由于中文中存在大量的两个及以上字符构成的词和词组，因此相比每个中文字符对应2个字节长度的标准编码，本发明实施例采用两个字节的字典编码来表示一个中文字符、同时还采用两个字节的字典编码来表示一个中文词和词组，同样也能够实现对采用标准编码的文本内容的有效压缩。

采用上述方法进行数据压缩后，即可以将压缩包文件保存在本地，以备后续使用，也可以将其发送给其他移动终端，相应地，当需要使用压缩包文件中的文本内容时，自然需要对该压缩包文件进行解压缩。因此，本发明实施例提供一种数据解压缩的方法，其流程如图3所示，该方法包括：

步骤301：按顺序逐一取出压缩包文件中的压缩后编码，分别在预先设置的字典中查找与所述各压缩后编码对应的解压缩结果；所述字典中包含各种文字的文字片断及其对应的字典编码，每个字典编码占用2个字节，且所述字典与生成压缩包文件时使用的字典相同；

容易理解，如果将文本内容压缩后以压缩包文件的形式保存在本地，则在解压缩时可以直接使用已有的字典进行解压缩；而如果所述压缩包文件为从其他终端处接收得到，则需要预先获取与进行压缩时相同的字典才能够顺利进行解压缩。本发明实施例并不限定获取所述字典的方法，例如可以由运营商对认证通过的合法终端统一提供，或由接收端在适当时机通过发起请求从拥有该字典的终端处获取等各种方法。

步骤302：若字典中存在与该压缩后编码对应的文字片断，则使用该文字片断对所述压缩后编码进行解压缩；否则，直接使用标识码之后设定长度的压缩后编码作为解压缩结果，所述设定长度与标识码的取值相等，单位为字节(即标识码为多少，就有多少字节的压缩后编码不必进行解压缩，也就是解压缩结果与压缩后编码相同，均为所述文字片段对应的标准编码)；

步骤303：将所有压缩后编码的解压缩结果按照原压缩包文件中的顺序组合，得到压缩前采用标准编码的文本。

可见，步骤301～303的解压缩过程实际上就是步骤101～103的逆过程。该方法预先设置与数据压缩时相同的字典，该字典中包含各种文字片断与字典编码的对应关系，在进行数据传输时，通过查找对应关系得到所述文字片断对应的字典编码，并对字典中未设置对应关系的文字片断通过在该文字片断对应的标准编码前添加标识码的方法得到其压缩后编码，实现了对采用标准编码的文本内容的有效压缩；同时，由于所述字典仅为收发双发所有，且压缩包文件中的数据仅为根据所述对应关系得到的映射编码，并不包含实际的文本内容，因此这种数据传输的方法还具有保密性。

本发明实施例还同时提供一种数据解压缩的装置，其组成结构如4所述，其中包括：字典模块410，查询匹配模块420和解压缩模块430；

所述字典模块410，用于保存预设的字典，该字典中包含各种文字的文字片断及其对应的字典编码，每个字典编码占用2个字节，且所述字典与生成压缩包文件时使用的字典相同；

所述查询匹配模块420，用于按顺序逐一取出所述压缩包文件中的压缩后编码，分别在字典模块410中查找与所述各压缩后编码对应的解压缩结果，并将查找得到的解压缩结果发送给解压缩模块430；

其中，所述查询匹配模块420包括：第三查询匹配单元421和第四查询匹配单元422；

所述第三查询匹配单元421，用于在字典模块410中存在与该压缩后编码对应的文字片断时，使用该文字片断对所述压缩后编码进行解压缩并将解压缩结果发送给解压缩模块430；

所述第四查询匹配单元422，用于根据标识码，直接使用标识码之后设定长度的压缩后编码作为解压缩结果并将解压缩结果发送给解压缩模块430，所述的设定长度与标识码的取值相等，单位为字节(即标识码的取值为多少，就有相等字节数的压缩后编码不必进行解压缩——即解压缩结果与压缩后编码相同，均为所述文字片段对应的标准编码)；

所述解压缩模块430，用于将查询匹配模块420发来的所述各压缩后编码的解压缩结果，按照原压缩包文件中的顺序组合起来，得到压缩前采用标准编码的文本。

可见，本发明实施例提供的数据解压缩的装置，这种数据解压缩的方法和装置，通过利用与压缩时相同的字典，能够实现对压缩包文件的解压缩，并且在进行解压缩时，如果没有压缩时使用的字典，就无法正确解压缩得到编码数据，从而能够实现加密保护文本内容的作用；同时，由于压缩包文件中的数据仅为根据所述对应关系得到的映射编码，并不包含实际的文本内容，且进行解压缩时必须依据与压缩时相同的字典才可以实现，因此这种数据解压缩的装置还具有保密性。

因此，容易理解，以上所述仅为本发明的较佳实施例，并非用于限定本发明的精神和保护范围，任何熟悉本领域的技术人员所做出的等同变化或替换，都应视为涵盖在本发明的保护范围之内。

Claims

1.一种数据压缩的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文字片断包括各种文字的单词、词组以及常用符号。

3.一种数据压缩的装置，其特征在于，该装置包括：字典模块，查询匹配模块和压缩包生成模块；

4.根据权利要求3所述的装置，其特征在于，所述查询匹配模块包括：第一查询匹配单元和第二查询匹配单元；

5.一种数据解压缩的方法，其特征在于，该方法包括：

6.根据权利要求5所述的方法，其特征在于，所述文字片断包括各种文字的单词、词组以及常用符号。

7.一种数据解压缩的装置，其特征在于，该装置包括：字典模块，查询匹配模块和解压缩模块；

8.根据权利要求7所述的装置，其特征在于，所述查询匹配模块包括：第三查询匹配单元和第四查询匹配单元；