CN101729075A - 一种数据压缩、解压缩的方法和装置 - Google Patents

一种数据压缩、解压缩的方法和装置 Download PDF

Info

Publication number
CN101729075A
CN101729075A CN200810201042A CN200810201042A CN101729075A CN 101729075 A CN101729075 A CN 101729075A CN 200810201042 A CN200810201042 A CN 200810201042A CN 200810201042 A CN200810201042 A CN 200810201042A CN 101729075 A CN101729075 A CN 101729075A
Authority
CN
China
Prior art keywords
dictionary
compression
module
literal
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810201042A
Other languages
English (en)
Inventor
邓冶华
邱旭军
蔡世光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Appliances Shanghai Corp
Original Assignee
Inventec Appliances Shanghai Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Appliances Shanghai Corp filed Critical Inventec Appliances Shanghai Corp
Priority to CN200810201042A priority Critical patent/CN101729075A/zh
Publication of CN101729075A publication Critical patent/CN101729075A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种数据压缩的方法,包括:将采用标准标码的文本中的各文字片断按顺序逐个取出,分别在预先设置的字典中查找与所述各文字片断匹配的字典编码;将所述各文字片断对应的压缩后编码按文本中原先的顺序组合,得到所述采用标准编码的文本的压缩包文件。以及公开了一种数据压缩的装置,包括:字典模块,查询匹配模块和压缩包生成模块。本发明还同时公开了一种数据解压缩的方法和装置。本发明提供的数据压缩的方法和装置,能够实现对采用标准编码的文本内容的有效压缩。本发明提供的数据解压缩的方法和装置,能够实现对压缩包文件的解压缩,并且在进行解压缩时,还能够实现加密保护文本内容的作用。

Description

一种数据压缩、解压缩的方法和装置
技术领域
本发明涉及移动通信中的编码技术,尤其涉及一种数据压缩的方法和装置,以及一种数据解压缩的方法和装置。
背景技术
随着移动通信技术的快速发展,手机迅速进入了人们的日常生活。同时,手机的功能也越来越丰富,除了传统的电话功能,人们也在同时使用手机进行各种其它应用,其中最普遍的就包括有关文字或文本的各种应用,并因此不可避免的经常涉及到文字资料的生成、收发或保存的问题。
目前,当利用手机在本地存储文字资料,或者经由通信网络收发文字资料时,几乎都是采用标准的编码方式。当需要对文字资料进行处理时,手机利用预先设定的所述标准编码方式对文字资料进行编码,然后进行保存、发送;或者接收采用所述标准的编码方式进行编码后的数据,进行解码后得到文字资料。常见的汉字的标准编码方式包括:GB、Big5和Unicode等,英文的标准编码方式则包括:ASCII、Unicode等。当采用上述的标准编码方式(以中、英文为例)时,每个英文字符或英文标点符号的编码长度为一个字节(Byte),每个中文字符或中文标点符号的编码长度为2个字节。
这种编码方式为每个字符设定相应的编码(汉字编码是对每个汉字字符设定相应的编码),虽然该编码方式简单有效,但单位长度的标准编码所能够携带的信息量有限——即,每单位长度的英文标准编码仅能表示一个英文字符,每单位长度的中文标准编码仅能表示一个汉字字符——如果需要表述更多的信息,则编码后形成的码流长度就会更长。一个明显的例子就是手机短信:大多数用户在使用手机时,都会感觉到短信字数的限制所造成的不便——每条英文短信一般不超过160个字母,而中文短信更是最多不超过70个汉字。一旦编写的短信超过了160个英文字母或70个汉字字符,手机就会自动按照最大允许的长度进行截取后,将其分割成两条或更多条短信分别发送。
同时,由于当前无线通信中的网络带宽以及手机中的存储空间都相对有限,因此必须尽量提高网络带宽和存储空间的利用效率,而在通信和计算机领域,提高网络带宽及存储空间的利用效率的常用方法就是对编码数据进行压缩。
目前主流的压缩算法主要是基于Huffman的压缩算法(如计算机中常用的压缩软件WinZip和WinRar等都是基于Huffman的压缩算法实现的),基于Huffman的压缩算法可以采取多种计算方法,但无论哪一种,其原理基本相同:
首先根据待压缩的编码数据产生一个索引表(Table),然后根据该索引表对编码数据进行压缩,且产生的该Table占用的空间大小只与选定的压缩算法的计算方法有关,而与编码数据自身的长度无关——即只有采用不同的计算方法,产生的Table的长度才会发生变化;
其次,将压缩后得到的数据与所述Table一起(即封装成为一个压缩包)发送给接收端,而接收端再根据所述Table,对所述压缩后得到的数据进行解压缩,还原出编码数据。
例如:假设采用某种基于Huffman压缩算法的计算方法,对于长度为10MB的编码数据产生的Table是1KB;则,压缩1MB编码数据产生的Table也是1KB,压缩1KB编码数据产生的Table还是1KB;假设压缩率都是60%,则对于上述3段编码数据,其压缩后的数据长度分别为:
10,000KB×0.7+1KB=7001KB;
1,000KB×0.7+1KB=701KB;
1KB×0.7+1KB=1.7KB;
可见,如果采用上述方法对采用标准编码格式的文本内容进行压缩时,对于长度为1KB的编码数据,压缩后数据所占用的空间反而比压缩前大小为1K的编码数据更大。可见,所述基于Huffman的压缩算法并不适用于对较短的内容进行压缩。而手机应用中出现的文字内容,通常都在几KB到几百KB的长度范围,而普通的纯文字短信更是只有不到1KB的长度,显然这种压缩算法并不适合在移动终端上应用。
由上述可见,现有的压缩方法无法对采用标准编码方式的文本内容实现有效压缩。
发明内容
本发明实施例提供一种数据压缩的方法和装置,能够对标准编码的文本内容进行有效压缩。
本发明实施例还提供一种数据解压缩的方法和装置,能够对压缩后的文本进行解压缩,并实现加密保护功能。
为达到上述目的的第一个方面,本发明的技术方案具体是这样实现的:
一种数据压缩的方法,该方法包括:
将采用标准标码的文本中的各文字片断按顺序逐个取出,分别在预先设置的字典中查找与所述各文字片断匹配的字典编码;所述字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节;
若字典中存在与该文字片断匹配的字典编码,则将该字典编码作为该文字片断对应的标准编码的压缩后编码;否则,在该文字片断对应的标准编码前添加标识码,并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码,所述标识码的取值与该文字片断对应的标准编码的字节数的值相等;
将所述各文字片断对应的压缩后编码按文本中原先的顺序组合,得到所述采用标准编码的文本的压缩包文件。
所述文字片断包括各种文字的单词、词组以及常用符号。
一种数据压缩的装置,该装置包括:字典模块,查询匹配模块和压缩包生成模块;
所述查询匹配模块,用于将采用标准标码的文本中的各文字片断按顺序逐个取出,分别在字典模块中查找与所述各文字片断匹配的字典编码,并将查找得到的字典编码发送给压缩包生成模块;
所述字典模块,用于保存预先建立的各种文字的文字片断所及其对应的字典编码;所述文字片断包括各种文字的单词、词组以及常用符号,且每个字典编码占用2个字节;
所述压缩包生成模块,用于接收查询匹配模块发来的所述各文字片断对应的压缩后编码,将其按原先的顺序组合得到该采用标准编码的文本的压缩包文件。
所述查询匹配模块包括:第一查询匹配单元和第二查询匹配单元;
所述第一查询匹配单元,用于在字典模块中存在与该文字片断匹配的字典编码时,将该编码作为该文字片断对应的标准编码的压缩后编码并发送给所述压缩包生成模块;
所述第二查询匹配单元,用于在字典模块中不存在与该文字片断匹配的字典编码时,在该文字片断对应的标准编码前添加标识码,并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码并发送给所述压缩包生成模块,所述标识码的取值与该文字片断对应的标准编码的字节数的值相等,所述标识码占用2个字节。
由上述的技术方案可见,本发明实施例的这种数据压缩的方法和装置,利用预先设定的字典得到文本内容对应的压缩后编码,由于西文单词由多个英文字母组成,同时中文中存在大量的两个及以上字符构成的词和词组,因此能够实现对采用标准编码的文本内容的有效压缩。
为达到上述目的的另一个方面,本发明的技术方案具体是这样实现的:
一种数据解压缩的方法,该方法包括:
按顺序逐一取出压缩包文件中的压缩后编码,分别在预先设置的字典中查找与所述各压缩后编码对应的解压缩结果;所述字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节,且所述字典与生成压缩包文件时使用的字典相同;
若字典中存在与该压缩后编码对应的文字片断,则使用该文字片断对所述压缩后编码进行解压缩;否则,直接使用标识码之后设定长度的压缩后编码作为解压缩结果,所述设定长度与标识码的取值相等;
将所有压缩后编码的解压缩结果按照原压缩包文件中的顺序组合,得到压缩前采用标准编码的文本。
所述文字片断包括各种文字的单词、词组以及常用符号。
一种数据解压缩的装置,该装置包括:字典模块,查询匹配模块和解压缩模块;
所述字典模块,用于保存预设的字典,该字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节,且所述字典与生成压缩包文件时使用的字典相同;
建立的各种文字的文字片断及其对应的字典编码,所述文字片断括各种文字的单词、词组以及常用符号等,每个字典编码占用2个字节;
所述查询匹配模块,用于按顺序逐一取出所述压缩包文件中的压缩后编码,分别在字典模块中查找与所述各压缩后编码对应的解压缩结果,并将查找得到的解压缩结果发送给解压缩模块;
所述解压缩模块,用于将查询匹配模块发来的所述各压缩后编码的解压缩结果,按照原压缩包文件中的顺序组合起来,得到压缩前采用标准编码的文本。
所述查询匹配模块包括:第三查询匹配单元和第四查询匹配单元;
所述第三查询匹配单元,用于在字典模块中存在与该压缩后编码对应的文字片断时,使用该文字片断对所述压缩后编码进行解压缩并将解压缩结果发送给解压缩模块;
所述第四查询匹配单元,用于根据标识码,直接使用标识码之后设定长度的压缩后编码作为解压缩结果并将解压缩结果发送给解压缩模块,所述的设定长度与标识码的取值相等,单位为字节。
由上述的技术方案可见,本发明实施例的这种数据解压缩的方法和装置,通过利用与压缩时相同的字典,能够实现对压缩包文件的解压缩,并且在进行解压缩时,如果没有压缩时使用的字典,就无法正确解压缩得到编码数据,从而能够实现加密保护文本内容的作用。
附图说明
图1为本发明实施例中数据压缩的方法的流程示意图。
图2为本发明实施例中数据压缩的装置的组成结构示意图。
图3为本发明实施例中数据传输的方法的流程示意图。
图4为本发明实施例中数据传输的系统的组成结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明实施例提供一种数据压缩的方法,其流程如图1所示,其中包括:
步骤101:将采用标准标码的文本中的各文字片断按顺序逐个取出,分别在字典中查找与所述各文字片断匹配的字典编码;所述字典中预先建立了各种文字的文字片断及其对应的字典编码,且每个字典编码占用2个字节;其中,所述文字片断可以包括各种文字的单词、词组以及常用符号等;
步骤102:若字典中存在与该文字片断匹配的字典编码,则该字典编码即为该文字片断对应的标准编码的压缩后编码;否则,在该文字片断对应的标准编码前添加标识码,并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码,且所述标识码的取值与该文字片断对应的标准编码的字节长度的值相等,所述标识码占用2个字节;
步骤103:将所述各文字片断对应的压缩后编码按原先的顺序组合,得到所述采用标准编码的文本的压缩包文件。
为了更清楚地展示本发明实施例提供的数据压缩的方法的工作流程,下面将进一步通过一个具体的应用实例进行举例说明:
假设预先建立的字典(节选该字典的一部分)中包含有如下表1所示的内容:
  文字片断   字典编码
  a   101
  an   102
  文字片断   字典编码
  arrive   103
  bye   1241
  I   4296
in 4297
  minutes   5496
  will   13952
  (英文空格)   15853
  .(英文句号)   15854
  !(英文感叹号)   15855
  内   22569
  赶到   25690
  分钟   35684
  一百   36982
  我   39854
  再见   42681
  ...
表1
A、对于一段英文文字内容:“I will arrive in 100 minutes.Bye!”,在对其进行保存时,首先将采用标准编码的上述文字内容中的各文字片断按顺序依次取出,在预先建立的如表1所示的字典中查找与各文字片断匹配的字典编码,可得在该字典中:
与文字片断I匹配的字典编码为4296;
与文字片断will匹配的字典编码为13952;
与文字片断arrive匹配的字典编码为103;
......
以此类推,直到与文字片断“!”匹配的字典编码为15855。
在上述过程中,有两点需要特别进行说明:
1)对于文字片断100,由于字典中并未定义与其对应的字典编码,因此将无法查找到与其匹配的字典编码,根据前文所述,此时会在文字片断100对应的标准编码前添加标识码,由于采用标准编码的文字片断100是由数字1对应的标准编码、数字0对应的标准编码和数字0对应的标准编码组成的,且每个数字对应的标准编码的长度为1个字节,因此该标识码应取3,用以表示该标识码之后的3个字节的内容为字典以外的内容(即采用标准编码表示的内容);因此,所述文字片断100的字典编码即由标识码3和100所对应的标准编码共同组成;且,在所述文字片断100的字典编码中,标识码3占据的长度为2个字节,100对应的标准编码占据的长度为3个字节;
显然,对于一些较为学术性的名词或者比较生僻、不常用的单词和词组,以及一些由纯数字构成的字段(比如电话号码和银行帐号等),一般在字典中无法预先一一定义,因此本发明实施例中利用标识码进行处理,因此,从表1中可以发现,字典中的字典编码并不是从0或1开始,而是从101开始,这是为了将1到100中的各数字用作标识码,例如:若文字内容中出现了13900000000这样的电话号码时,在字典中没有与之匹配的字典编码,此时在该表示该电话号码的标准编码前添加标识码11,用以表示该标识码之后的11个字节的内容为字典以外的内容。同时容易理解的是,表1中字典编码从101开始只是举例,由于在实际应用中很少出现大于30位的数字,因此字典编码可以从任何大于31的数字开始,表1中设定的字典编码从101开始只是为可能出现的数字预留了更大的裕量而已。
2)按照英文的书写习惯,在同一句话当中各英文单词之间,以及英文单词与数字之间,都采用空格符(英文空格)相互隔开,本发明实施例中既可以预先在字典中定义与空格符匹配的字典编码,并在进行压缩处理时用该字典编码替换空格符对应的标准编码;也可以设置一种缺省压缩模式,在进行英文文字资料的压缩处理时,忽略文字片断之间的空格符,以更进一步提高压缩比率。
仍以英文文字内容:“I will arrive in 100 minutes.Bye!”为例,如果不忽略其中的空格符,则压缩后该文字内容占据的长度为31字节;而压缩前(即采用标准编码)该文字内容占据的长度为34字节;如果采用忽略空格符的缺省压缩模式,则此时压缩后的文字内容占据的长度为21字节,可见,压缩比率得到了较大提高。
B、仍以表1为例,假设此时需要保存一段中文文字内容“我一百分钟内赶到.再见!”,由于在中文的书写习惯下,在同一句话当中,无论是中英文字符之间,还是中文字符与数字之间,通常都不使用空格相互隔开,因此本发明实施例在对中文文字内容进行压缩处理时,通常不忽略文字当中的空格符。压缩前(即采用标准编码),该文字内容占据的长度为22字节,由于该文字内容钟不包含空格符,因此无论是否忽略文字中的空格符,其压缩后所占据的长度为16字节。
此外,在实际的文字内容中,中英文内容有时还会同时出现,为了尽量避免压缩造成的错误,根据经验,对于只包含英文和数字的文字内容,可以忽略文字当中的空格符以提高压缩比率,而对于包含中文的文字内容,则通常不忽略文字当中的空格符。应当指出,以上所述空格符的处理策略仅是基于本发明精神进行的展示和举例,并非用于限定具体的实施方式,因此在实际应用中也可以采用其他处理策略。
最后需要说明的是,本发明实施例中虽然全部采用了中英文内容的文本进行了举例,但容易理解,对于其他任何文字的文本,该方法都同样适用,下文中将不再每次进行特别说明。
本发明实施例还提供一种数据压缩的装置,该装置的组成结构如图2所示,其中包括:字典模块210,查询匹配模块220和压缩包生成模块230;
所述查询匹配模块220,用于将采用标准标码的文本中的各文字片断按顺序逐个取出,分别在字典模块210中查找与所述各文字片断匹配的字典编码,并将查找得到的字典编码发送给压缩包生成模块230;
所述字典模块210,用于保存预先建立的各种文字的文字片断及其对应的字典编码,其中,所述文字片断可以包括各种文字的单词、词组以及常用符号等;且每个字典编码占用2个字节;
所述压缩包生成模块230,用于接收查询匹配模块220发来的所述各文字片断对应的压缩后编码,将其按原先的顺序组合得到该采用标准编码的文本的压缩包文件。
其中,所述查询匹配模块220包括:第一查询匹配单元221和第二查询匹配单元222;
所述第一查询匹配单元221,用于在字典模块210中存在与该文字片断匹配的字典编码时,将该编码作为该文字片断对应的标准编码的压缩后编码并发送给所述压缩包生成模块230;
所述第二查询匹配单元222,用于在字典模块210中不存在与该文字片断匹配的字典编码时,在该文字片断对应的标准编码前添加标识码,并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码并发送给所述压缩包生成模块230,所述标识码的取值与该文字片断对应的标准编码的字节长度的值相等,所述标识码占用2个字节。
可见,本发明实施例提供的数据压缩的方法和装置,在预先设定的字典中建立各种文字片断与字典编码的对应关系,通过查找对应关系得到所述文字片断对应的字典编码,并对字典中未设置对应关系的文字片断通过在该文字片断对应的标准编码前添加标识码的方法得到其压缩后编码,由于英文单词基本由两个及以上的英文字母组成,因此相比每个字母对应一个字节长度的标准编码,本发明实施例采用两个字节的字典编码来表示一个英文单词,无疑实现了对采用标准编码的文本内容的有效压缩;对于中文文本,由于中文中存在大量的两个及以上字符构成的词和词组,因此相比每个中文字符对应2个字节长度的标准编码,本发明实施例采用两个字节的字典编码来表示一个中文字符、同时还采用两个字节的字典编码来表示一个中文词和词组,同样也能够实现对采用标准编码的文本内容的有效压缩。
采用上述方法进行数据压缩后,即可以将压缩包文件保存在本地,以备后续使用,也可以将其发送给其他移动终端,相应地,当需要使用压缩包文件中的文本内容时,自然需要对该压缩包文件进行解压缩。因此,本发明实施例提供一种数据解压缩的方法,其流程如图3所示,该方法包括:
步骤301:按顺序逐一取出压缩包文件中的压缩后编码,分别在预先设置的字典中查找与所述各压缩后编码对应的解压缩结果;所述字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节,且所述字典与生成压缩包文件时使用的字典相同;
容易理解,如果将文本内容压缩后以压缩包文件的形式保存在本地,则在解压缩时可以直接使用已有的字典进行解压缩;而如果所述压缩包文件为从其他终端处接收得到,则需要预先获取与进行压缩时相同的字典才能够顺利进行解压缩。本发明实施例并不限定获取所述字典的方法,例如可以由运营商对认证通过的合法终端统一提供,或由接收端在适当时机通过发起请求从拥有该字典的终端处获取等各种方法。
步骤302:若字典中存在与该压缩后编码对应的文字片断,则使用该文字片断对所述压缩后编码进行解压缩;否则,直接使用标识码之后设定长度的压缩后编码作为解压缩结果,所述设定长度与标识码的取值相等,单位为字节(即标识码为多少,就有多少字节的压缩后编码不必进行解压缩,也就是解压缩结果与压缩后编码相同,均为所述文字片段对应的标准编码);
步骤303:将所有压缩后编码的解压缩结果按照原压缩包文件中的顺序组合,得到压缩前采用标准编码的文本。
可见,步骤301~303的解压缩过程实际上就是步骤101~103的逆过程。该方法预先设置与数据压缩时相同的字典,该字典中包含各种文字片断与字典编码的对应关系,在进行数据传输时,通过查找对应关系得到所述文字片断对应的字典编码,并对字典中未设置对应关系的文字片断通过在该文字片断对应的标准编码前添加标识码的方法得到其压缩后编码,实现了对采用标准编码的文本内容的有效压缩;同时,由于所述字典仅为收发双发所有,且压缩包文件中的数据仅为根据所述对应关系得到的映射编码,并不包含实际的文本内容,因此这种数据传输的方法还具有保密性。
本发明实施例还同时提供一种数据解压缩的装置,其组成结构如4所述,其中包括:字典模块410,查询匹配模块420和解压缩模块430;
所述字典模块410,用于保存预设的字典,该字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节,且所述字典与生成压缩包文件时使用的字典相同;
所述查询匹配模块420,用于按顺序逐一取出所述压缩包文件中的压缩后编码,分别在字典模块410中查找与所述各压缩后编码对应的解压缩结果,并将查找得到的解压缩结果发送给解压缩模块430;
其中,所述查询匹配模块420包括:第三查询匹配单元421和第四查询匹配单元422;
所述第三查询匹配单元421,用于在字典模块410中存在与该压缩后编码对应的文字片断时,使用该文字片断对所述压缩后编码进行解压缩并将解压缩结果发送给解压缩模块430;
所述第四查询匹配单元422,用于根据标识码,直接使用标识码之后设定长度的压缩后编码作为解压缩结果并将解压缩结果发送给解压缩模块430,所述的设定长度与标识码的取值相等,单位为字节(即标识码的取值为多少,就有相等字节数的压缩后编码不必进行解压缩——即解压缩结果与压缩后编码相同,均为所述文字片段对应的标准编码);
所述解压缩模块430,用于将查询匹配模块420发来的所述各压缩后编码的解压缩结果,按照原压缩包文件中的顺序组合起来,得到压缩前采用标准编码的文本。
可见,本发明实施例提供的数据解压缩的装置,这种数据解压缩的方法和装置,通过利用与压缩时相同的字典,能够实现对压缩包文件的解压缩,并且在进行解压缩时,如果没有压缩时使用的字典,就无法正确解压缩得到编码数据,从而能够实现加密保护文本内容的作用;同时,由于压缩包文件中的数据仅为根据所述对应关系得到的映射编码,并不包含实际的文本内容,且进行解压缩时必须依据与压缩时相同的字典才可以实现,因此这种数据解压缩的装置还具有保密性。
因此,容易理解,以上所述仅为本发明的较佳实施例,并非用于限定本发明的精神和保护范围,任何熟悉本领域的技术人员所做出的等同变化或替换,都应视为涵盖在本发明的保护范围之内。

Claims (8)

1.一种数据压缩的方法,其特征在于,该方法包括:
将采用标准标码的文本中的各文字片断按顺序逐个取出,分别在预先设置的字典中查找与所述各文字片断匹配的字典编码;所述字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节;
若字典中存在与该文字片断匹配的字典编码,则将该字典编码作为该文字片断对应的标准编码的压缩后编码;否则,在该文字片断对应的标准编码前添加标识码,并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码,所述标识码的取值与该文字片断对应的标准编码的字节数的值相等;
将所述各文字片断对应的压缩后编码按文本中原先的顺序组合,得到所述采用标准编码的文本的压缩包文件。
2.根据权利要求1所述的方法,其特征在于,所述文字片断包括各种文字的单词、词组以及常用符号。
3.一种数据压缩的装置,其特征在于,该装置包括:字典模块,查询匹配模块和压缩包生成模块;
所述查询匹配模块,用于将采用标准标码的文本中的各文字片断按顺序逐个取出,分别在字典模块中查找与所述各文字片断匹配的字典编码,并将查找得到的字典编码发送给压缩包生成模块;
所述字典模块,用于保存预先建立的各种文字的文字片断所及其对应的字典编码;所述文字片断包括各种文字的单词、词组以及常用符号,且每个字典编码占用2个字节;
所述压缩包生成模块,用于接收查询匹配模块发来的所述各文字片断对应的压缩后编码,将其按原先的顺序组合得到该采用标准编码的文本的压缩包文件。
4.根据权利要求3所述的装置,其特征在于,所述查询匹配模块包括:第一查询匹配单元和第二查询匹配单元;
所述第一查询匹配单元,用于在字典模块中存在与该文字片断匹配的字典编码时,将该编码作为该文字片断对应的标准编码的压缩后编码并发送给所述压缩包生成模块;
所述第二查询匹配单元,用于在字典模块中不存在与该文字片断匹配的字典编码时,在该文字片断对应的标准编码前添加标识码,并将该标识码与所述标准编码一起作为该文字片断对应的压缩后编码并发送给所述压缩包生成模块,所述标识码的取值与该文字片断对应的标准编码的字节数的值相等,所述标识码占用2个字节。
5.一种数据解压缩的方法,其特征在于,该方法包括:
按顺序逐一取出压缩包文件中的压缩后编码,分别在预先设置的字典中查找与所述各压缩后编码对应的解压缩结果;所述字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节,且所述字典与生成压缩包文件时使用的字典相同;
若字典中存在与该压缩后编码对应的文字片断,则使用该文字片断对所述压缩后编码进行解压缩;否则,直接使用标识码之后设定长度的压缩后编码作为解压缩结果,所述设定长度与标识码的取值相等;
将所有压缩后编码的解压缩结果按照原压缩包文件中的顺序组合,得到压缩前采用标准编码的文本。
6.根据权利要求5所述的方法,其特征在于,所述文字片断包括各种文字的单词、词组以及常用符号。
7.一种数据解压缩的装置,其特征在于,该装置包括:字典模块,查询匹配模块和解压缩模块;
所述字典模块,用于保存预设的字典,该字典中包含各种文字的文字片断及其对应的字典编码,每个字典编码占用2个字节,且所述字典与生成压缩包文件时使用的字典相同;
建立的各种文字的文字片断及其对应的字典编码,所述文字片断括各种文字的单词、词组以及常用符号等,每个字典编码占用2个字节;
所述查询匹配模块,用于按顺序逐一取出所述压缩包文件中的压缩后编码,分别在字典模块中查找与所述各压缩后编码对应的解压缩结果,并将查找得到的解压缩结果发送给解压缩模块;
所述解压缩模块,用于将查询匹配模块发来的所述各压缩后编码的解压缩结果,按照原压缩包文件中的顺序组合起来,得到压缩前采用标准编码的文本。
8.根据权利要求7所述的装置,其特征在于,所述查询匹配模块包括:第三查询匹配单元和第四查询匹配单元;
所述第三查询匹配单元,用于在字典模块中存在与该压缩后编码对应的文字片断时,使用该文字片断对所述压缩后编码进行解压缩并将解压缩结果发送给解压缩模块;
所述第四查询匹配单元,用于根据标识码,直接使用标识码之后设定长度的压缩后编码作为解压缩结果并将解压缩结果发送给解压缩模块,所述的设定长度与标识码的取值相等,单位为字节。
CN200810201042A 2008-10-10 2008-10-10 一种数据压缩、解压缩的方法和装置 Pending CN101729075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810201042A CN101729075A (zh) 2008-10-10 2008-10-10 一种数据压缩、解压缩的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810201042A CN101729075A (zh) 2008-10-10 2008-10-10 一种数据压缩、解压缩的方法和装置

Publications (1)

Publication Number Publication Date
CN101729075A true CN101729075A (zh) 2010-06-09

Family

ID=42449415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810201042A Pending CN101729075A (zh) 2008-10-10 2008-10-10 一种数据压缩、解压缩的方法和装置

Country Status (1)

Country Link
CN (1) CN101729075A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880703A (zh) * 2012-09-25 2013-01-16 广州市动景计算机科技有限公司 中文网页数据编码、解码方法及系统
CN104066117A (zh) * 2014-07-02 2014-09-24 中国人民解放军电子工程学院 基于北斗通信功能的人防应急警报信息报文压缩编码方法
CN105391514A (zh) * 2014-09-05 2016-03-09 北京奇虎科技有限公司 字符编码解码方法及装置
CN105630529A (zh) * 2014-11-05 2016-06-01 京微雅格(北京)科技有限公司 Fpga配置文件的加载方法和解码器
CN105893337A (zh) * 2015-01-04 2016-08-24 伊姆西公司 用于文本压缩和解压缩的方法和设备
CN107561564A (zh) * 2017-09-08 2018-01-09 广州祺智通信科技股份有限公司 一种北斗卫星信息传输的压缩实现方法
CN109146036A (zh) * 2018-09-07 2019-01-04 安徽工程大学 采用二维码视频进行基因座等位基因数据传输的方法
CN109697277A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 文本压缩的方法和装置
CN109962958A (zh) * 2017-12-26 2019-07-02 上海全土豆文化传播有限公司 文档处理方法及装置
CN111510419A (zh) * 2019-01-31 2020-08-07 华为技术有限公司 一种数据压缩的方法及基站
CN112434526A (zh) * 2020-11-24 2021-03-02 南京莱斯信息技术股份有限公司 基于北斗通信的指挥信息结构化语义表达与重构方法
CN114666406A (zh) * 2022-02-24 2022-06-24 国电南瑞科技股份有限公司 一种基于物模型的电力物联网数据压缩方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1256605A (zh) * 1998-11-04 2000-06-14 三星电子株式会社 用于移动通信终端的短消息发送设备和方法
CN101465902A (zh) * 2007-12-21 2009-06-24 康佳集团股份有限公司 一种手机短信压缩通讯方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1256605A (zh) * 1998-11-04 2000-06-14 三星电子株式会社 用于移动通信终端的短消息发送设备和方法
CN101465902A (zh) * 2007-12-21 2009-06-24 康佳集团股份有限公司 一种手机短信压缩通讯方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880703B (zh) * 2012-09-25 2016-03-16 广州市动景计算机科技有限公司 中文网页数据编码、解码方法及系统
CN102880703A (zh) * 2012-09-25 2013-01-16 广州市动景计算机科技有限公司 中文网页数据编码、解码方法及系统
CN104066117A (zh) * 2014-07-02 2014-09-24 中国人民解放军电子工程学院 基于北斗通信功能的人防应急警报信息报文压缩编码方法
CN105391514A (zh) * 2014-09-05 2016-03-09 北京奇虎科技有限公司 字符编码解码方法及装置
CN105391514B (zh) * 2014-09-05 2019-02-22 北京奇虎科技有限公司 字符编码解码方法及装置
CN105630529A (zh) * 2014-11-05 2016-06-01 京微雅格(北京)科技有限公司 Fpga配置文件的加载方法和解码器
US10498355B2 (en) 2015-01-04 2019-12-03 EMC IP Holding Company LLC Searchable, streaming text compression and decompression using a dictionary
CN105893337A (zh) * 2015-01-04 2016-08-24 伊姆西公司 用于文本压缩和解压缩的方法和设备
CN107561564A (zh) * 2017-09-08 2018-01-09 广州祺智通信科技股份有限公司 一种北斗卫星信息传输的压缩实现方法
CN107561564B (zh) * 2017-09-08 2019-08-06 广州祺智通信科技股份有限公司 一种北斗卫星信息传输的压缩实现方法
CN109697277B (zh) * 2017-10-20 2024-02-13 北京京东尚科信息技术有限公司 文本压缩的方法和装置
CN109697277A (zh) * 2017-10-20 2019-04-30 北京京东尚科信息技术有限公司 文本压缩的方法和装置
CN109962958A (zh) * 2017-12-26 2019-07-02 上海全土豆文化传播有限公司 文档处理方法及装置
CN109962958B (zh) * 2017-12-26 2022-05-03 阿里巴巴(中国)有限公司 文档处理方法及装置
CN109146036A (zh) * 2018-09-07 2019-01-04 安徽工程大学 采用二维码视频进行基因座等位基因数据传输的方法
CN111510419A (zh) * 2019-01-31 2020-08-07 华为技术有限公司 一种数据压缩的方法及基站
CN111510419B (zh) * 2019-01-31 2021-03-30 华为技术有限公司 一种数据压缩的方法及基站
US11902401B2 (en) 2019-01-31 2024-02-13 Huawei Technologies Co., Ltd. Data compression method and base station
CN112434526A (zh) * 2020-11-24 2021-03-02 南京莱斯信息技术股份有限公司 基于北斗通信的指挥信息结构化语义表达与重构方法
CN114666406A (zh) * 2022-02-24 2022-06-24 国电南瑞科技股份有限公司 一种基于物模型的电力物联网数据压缩方法及装置
CN114666406B (zh) * 2022-02-24 2023-11-21 国电南瑞科技股份有限公司 一种基于物模型的电力物联网数据压缩方法及装置

Similar Documents

Publication Publication Date Title
CN101729075A (zh) 一种数据压缩、解压缩的方法和装置
Shirali-Shahreza et al. Text steganography in SMS
CN100495318C (zh) 整型数据的压缩方法、装置及解压缩方法、装置
CN100425081C (zh) 短信收发的编码转换方法及其应用的网络设备
US20090115646A1 (en) Data processing system and method
US20130262486A1 (en) Encoding and Decoding of Small Amounts of Text
US20120284528A1 (en) Multi-purpose multi-dimensional, variable and multi-key e-mail and data encryption method
CN104504342B (zh) 基于Unicode编码利用不可见字符隐藏信息的方法
US11669553B2 (en) Context-dependent shared dictionaries
CN103605730A (zh) 一种基于不定长标识码的xml的压缩方法和装置
US20150195225A1 (en) Compressing and decompressing electronic messages in message threads
US20120083295A1 (en) Transmission of handwriting over sms protocol
WO2011017927A1 (zh) 短信编码处理方法、装置及系统
CN104363348B (zh) 信息数据处理方法及装置
CN108134799B (zh) 新型编解码方法及其装置
CN104021121A (zh) 一种文本数据压缩方法、装置及服务器
CN1310561A (zh) 字符显示技术
CN103595415A (zh) 一种编码方法、解码方法及编码系统、解码系统
Shanmugasundaram et al. IIDBE: A lossless text transform for better compression
EP2113845A1 (en) Character conversion method and apparatus
Husodo et al. Arithmetic coding modification to compress SMS
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
KR20100021817A (ko) 텍스트 데이터 압축 방법
CN105183750B (zh) 紧凑式xml解析系统
Kareem et al. Text steganography method based on modified run length encoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20100609

RJ01 Rejection of invention patent application after publication