CN1186987A - 信息压缩方法及其装置 - Google Patents

信息压缩方法及其装置 Download PDF

Info

Publication number
CN1186987A
CN1186987A CN98104231A CN98104231A CN1186987A CN 1186987 A CN1186987 A CN 1186987A CN 98104231 A CN98104231 A CN 98104231A CN 98104231 A CN98104231 A CN 98104231A CN 1186987 A CN1186987 A CN 1186987A
Authority
CN
China
Prior art keywords
word string
information
compression dictionary
dictionary
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN98104231A
Other languages
English (en)
Inventor
林光信
卢凤顺
李伯峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN98104231A priority Critical patent/CN1186987A/zh
Publication of CN1186987A publication Critical patent/CN1186987A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种信息压缩方法及装置,该方法包含建立静态字典;由信息文件中读入一字元,加入一暂存字串;搜寻暂存字串;当暂存字串存在静态字典时,读入下一字元加入暂存字串中;当暂存字串不存在静态字典中时,输出一对应的代码,更新暂存字串为最后读入字元,并读入下一字元加入暂存字串中。也可进一步加入一字串频率统计步骤。信息压缩装置则包含一静态压缩信息存储装置及一压缩装置,以读入信息文件,用以进行压缩,产生一压缩信息。

Description

信息压缩方法及其装置
本发明涉及一种信息压缩方法及一种信息压缩装置,特别涉及一种可使用于电子辞典信息,具有高压缩率、快速解压缩特性的信息压缩方法及其装置。
随着计算机科技的快速发展,大量的计算机设备已被广泛的应用于生活中,而随着所谓“无纸时代”的来临,大量的文件或书籍资料如商务文书、百科全书、甚至是辞典等,皆逐渐将其信息计算机化,不仅增加其保存的安全性及管理上的方便性,更藉由计算机在处理信息上易于查询、便于复制、容易携带及处理的特性,大幅度提高了使用上的便利性及信息运用上的效率。
但是随着大量信息的计算机化,许多文字资料建立而成的档案资料或是文字档,其所需占用的容量亦相当的可观,过于庞大的档案,往往造成计算机硬件的存储空间如硬磁盘等过大的负荷,使管理及保存上较为不便,并导致处理及携带上的不便,也使得存取的效率及速度受到影响。虽然近年来大容量的存储设备如光盘、高容量软盘等的发展已使得存储容量大幅提高,但考虑软件信息的存取速度及方便性,缩减信息所占空间的应用技术发展,仍有相当迫切的需要。
一般而言,为达到缩减信息所占空间,且不影响存储内容及信息的目的下,可采用特定的压缩方法,例如使用一数据编码技术,以较少的数据信息来代表较为多量的字元及字串信息,达到减少信息所占空间的目的。目前在缩减信息所占空间的压缩方法上,已有相当的进展,知名的压缩软件如ARJ或是PKZJP等,在作为文件压缩工具上已有相当的应用。但是以上述的压缩工具而言,对于大文件的整体压缩较为有效,但若使用于较小而多量的文件,或是将大文件分为许多个小文件时,压缩率则会大为降低,导致了对于小文件或分段式文件,高压缩率难以实现的缺点。尤其以目前的压缩技术而言,当需取得单一或特定文件中某一指定的段落或字串时,必须将压缩档中的整个文件解压,方能取得所需的信息,即必须花费将一整个文件解压缩的时间,来取得一个所需的段落或字串,相当的费时与不便。
对于大多数的信息库而言,其内容多包含有具有许多笔独立的信息,例如一商业组织的客户信息、或是电子辞典的信息库等,以此种信息的使用特性来说,其内容包含了划分为许多段落或区间的个别信息,压缩后的压缩档,必须接受经常性的查询或是检出的工作,因此在应用传统的压缩方式上,受限于其压缩率过低,且取得文件中某一指定的段落或字串不易而速度极慢的缺点,无法同时达到压缩文件所占空间,且增进使用效率的要求。
本发明的目的是提供一种信息压缩方法及装置。
本发明的另一目的为提供一种信息压缩方法及装置,可达成较高的压缩率,并提高解压缩的速度,减少压缩文件所占空间,且增进使用效能。
本发明的另一目的为提供一种可以适用于如电子辞典等信息库文件的信息压缩方法及装置,可提高查询或使用时即时解压缩的速度,且增进查询时解压缩的效率。
本发明中的信息压缩方法用以压缩一信息文件,包含首先建立一静态压缩字典,静态压缩字典至少包含多个代码,一对一的相对应于多个字串;再由信息文件中读入一字元,加入一暂存字串;并于静态压缩字典中,搜寻暂存字串;当暂存字串存在于静态压缩字典时,由信息文件中读入下一字元,加入暂存字串中;而当暂存字串不存在于静态压缩字典中时,输出一对应于一前一暂存字串的一代码,以最后读入的字元取代为暂存字串,由信息文件中读入下一字元,加入暂存字串中。
本发明的方法还可进一步选择性的加入一个字串频率统计步骤,针对信息文件中所有出现的字串,进行出现次数的统计,以将使用频率较高的字串加入静态压缩字典中,增加对信息文件的压缩率。也可藉由一分段结构的方式,加入可相互与一索引信息相对应的编码或存储位址,进一步可加快解压缩时,即时取得信息的速度。
本发明中的信息压缩装置包含:一静态压缩信息存储装置,静态压缩信息存储装置包含多个代码,一对一的相对应于多个字串;及一压缩装置,与静态压缩信息存储装置相连结,压缩装置读入信息文件与多个代码,用以进行压缩,以产生一压缩资料。信息压缩装置可进一步包含一动态压缩信息存储装置,与压缩装置相连,用以于压缩步骤中存储多个动态字串信息。
图1为本发明中信息压缩装置结构及连接示意图。
图2显示本发明中信息压缩方法的压缩处理过程的流程图。
图3显示本发明中信息压缩方法的字串频率统计过程的流程图。
图4为本发明中信息压缩方法所对应的解压缩处理过程的流程图。
图5为本发明中信息压缩方法,采用分段压缩方式时的对应结构。
本发明中提供一种信息压缩方法及装置,利用一静态压缩字典及一动态压缩字典的建立,使静态压缩字典包含使用频率高的字串,而将使用频率低的字串置于动态压缩字典中,并包含多数个一对一相互对应的编码或代码,增进对文件压缩的压缩率。并可进一步选择性的加入一字串频率统计过程,针对文件中所有出现的不定长字串,进行出现次数的统计,并将出现频率加以排列,加入静态压缩字典中,以进一步增加此信息压缩方法的压缩率。也可藉由一加入分段结构的特征及方法,加快解压缩的速度。
参见图1所示,为本发明中信息压缩装置的结构及连接示意图。当对信息文件10进行压缩时,信息文件10内的信息,经过一压缩装置12将其信息内容、即字元或字串读入,处理后输出代码以产生一压缩信息14,压缩装置12与一静态压缩字典16及一动态压缩字典18连结。静态压缩字典16为一静态压缩信息存储装置,其中至少包含信息文件10中经常使用或出现的字串及字元,及这些字串或字元所对应的编码或代码,作为压缩时对应之用,在同一文件或段落中为一不受压缩装置12影响而变化的信息内容;动态压缩字典18为一动态压缩信息存储装置,用以存储压缩装置12处理过程中,不包含于静态压缩字典16中的字串,动态压缩字典18即作为一暂存区域,根据当时所处理的信息文件10中的字串所临时建立而成,其信息内容会随压缩过程的进行而变动。
本发明中信息压缩方法所使用的装置还可进一步加入一字串频率统计装置20,如图1中所示,与信息文件10及静态压缩字典16相连结,以对信息文件10中所有出现的不定长度的字串,进行出现次数的统计,并以出现频率的多寡将字串依序加以排列,取出其中出现频率较高者,成为一高频字典,并加入静态压缩字典16中,做为常用字串,以更进一步增加压缩装置12处理信息时的速度及所得压缩信息14的压缩率。
信息压缩装置中还可包含一对应的解压缩装置22,如图1中所示,解压缩装置22用以读入压缩信息14,藉由静态压缩字典16中字串或字元与代码对应,执行一解压缩步骤,以输出一还原信息文件,即为原来的信息文件10。
本发明中的信息压缩方法,其压缩处理的流程可参照图2所示的流程图,压缩过程50开始之后,首先由信息文件10中的起始处读入一字元,存入一暂存字串中(步骤52);并于静态压缩字典16中,搜寻暂存字串(步骤54);当暂存字串存在于静态压缩字典时,由信息文件中读入下一字元,加入暂存字串中(步骤56);而当暂存字串不存在于静态压缩字典16中时,输出一对应于一前一暂存字串的一代码,以最后读入的字元取为代为暂存字串的内容,再由信息文件10中读入下一字元,加入暂存字串中(步骤58)。
信息压缩方法即是反复进行上述的步骤54至步骤56(或步骤58),并于每一次读入下一字元时由读入字元判断是否到达结尾,当尚未到达信息文件10的分段处或结束处时,即重复的进行压缩过程;当已到达信息文件10的分段处或结束处时,即输出静态压缩字典16中相对于暂存字串的代码至压缩信息14中,以完成压缩过程。
而在步骤58中,若静态压缩字典16不存在与暂存字串相同的字串,可进一步将暂存字串加入一动态压缩字典18中。通常若是在动态压缩字典18容量有限的状况下,可包含一步骤,以判断动态压缩字典18内的空量是否达到其容量上限,当动态压缩字典18内的容量达到容量上限时,将动态压缩字典18内重复出现次数最少的字串(即极低频的字串)加以清除,以预留空间作为下一次暂存字串加入时之用。
综上所述,在进行信息压缩处理的循环过程50中,利用一对于静态压缩字典16的参照,将信息文件10的内容,藉由可搜寻到最长的常用字串,转换成占用空间小的代码,并将未包含于静态压缩字典16中的字串,存放于动态压缩字典18中,成为较不常用的字串、也就是较为低频的字串的参考存储区,完成将信息文件10压缩至压缩信息14的过程。
为了进一步增加压缩装置12处理信息时的速度及所得压缩信息14的压缩率,可进一步加入一字串频率统计的过程60,进行于信息压缩处理的循环过程50之前,以产生一个更能够与信息文件10的内容相配合的静态压缩字典16,其流程如图3所示。字串频率统计的过程60如下:首先包含一起始基本压缩字典的步骤62,建立一空白的基本压缩字典;再由信息文件10中的起始处读入一字元,存入于一暂存字串中(步骤64);并记录暂存字串的出现,累加其出现次数(步骤66);接着于基本压缩字典中,搜寻暂存字串(步骤68);当暂存字串存在于基本压缩字典中时,由信息文件中读入下一字元,加入暂存字串中(步骤70);当暂存字串不存在于基本压缩字典中时,将暂存字串存入基本压缩字典中,以最后读入的字元取代为暂存字串的内容,由信息文件中读入下一字元,加入暂存字串中(步骤72)。
字串频率统计过程60即是反复进行上述的步骤66至步骤70(或步骤72),并于每一次读入下一字元时由读入字元判断是否到达结尾,当尚未到达信息文件10的结束处时,即重复的进行压缩过程;当已到达信息文件10的结束处时,即进行一排序步骤74,进行一所有出现字串的排序,将个别字串依出现频率的多寡加以排列,取出其中出现次数较多的个别字串,以加入于静态压缩字典16中,并建立对应于加入字串的代码。综上所述,藉由字串频率统计的过程60,可取出出现频率较高的个别字串,成为常用字串,以产生一个更能够与信息文件10的内容相配合的静态压缩字典16,增进压缩效率。
相对于本发明中的信息压缩方法,当需取出压缩信息14中的代码,以产生其原始的信息文件10时,则须进行一解压缩处理的过程80,如图4的流程图所示,压缩过程开始之后,首先由压缩信息14读入一压缩代码(步骤82);并于静态压缩字典中16,搜寻此压缩代码(步骤84);当压缩代码存在于静态压缩字典中时,输出相同于压缩代码所对应的一字串(步骤86);而当压缩代码不存在于静态压缩字典中的字串时,输出压缩代码所代表的一字元(步骤88)。
解压缩处理的过程80即是反复进行上述的步骤82至步骤86(或步骤88),并于每一次读入下一压缩代码时由读入压缩代码判断是否到达结尾,当尚未到达压缩信息14的结束处时,即重复的进行解压缩处理,直至完成全部压缩信息14的解压缩处理,而得到一与原始信息文件完全相同的还原信息文件,完成一解压缩的过程。
而在步骤84中,可进一步包含一存入动态压缩字典18的步骤,以记录解压缩处理80过程中的字串使用频率及状况。于步骤86中,即当压缩代码存在于静态压缩字典16中时,将字串的第一字元合并于一前次输出字串之后,存入动态压缩字典18之中;而于步骤88中,即当压缩代码不存在于静态压缩字典16中时,则将前次输出字串的第一字元合并于前次输出字串之后,存入动态压缩字典18之中。
以下提供一实际压缩过程的结果,以作为进一步了解本发明之用,但并非用以限制本发明。一信息文件10含有以下分段性的资料:
字串1:SAMPLE_ONE_SAME
字串2:SAMPLE_TWO_PLEASE_FREE
字串3:SAMPLE_THREE_SEE
首先经过一字串频率统计过程、如图3中所示的字串频率统计过程60,得出一静态压缩字典包含代码及其字串如下:
<100>=‘E_’
<101>=‘SA’
<102>=‘SAM’
<103>=‘PL’
<104>=‘SAMP’
<105>=‘E_S’
<106>=‘PLE’
<107>=‘EE’
<108>=‘LE’
<109>=‘RE’
接着经过一压缩过程、如图2中所示的压缩过程50,得出代码如下:
字串1:
<104><108><’_ ’><’O’><’N’><105><’A’><’M’>
<’E’>
字串2:
<104><108><’_’><’T’><’W’><’O’><’_’><106>
          <’A’><’S’><100><’F’><109><’E’>
字串3:
<104><108><’_’><’T’><’H’><109><105><107>
而再经过一解压缩过程、如图4中所示的解压缩过程80,即可得出原来的信息文件10。
对于大多数的信息库而言、其内容多包含有具有许多笔独立的信息,例如一电子辞典的信息内容等,以此种信息的使用特性来说,其内容包含了划分为许多段落或区间的个别信息,压缩后的压缩档,必须接受经常性的查询或是检出的工作,因此在应用传统的压缩方式上,受限于其压缩率过低,且取得文件中某一指定的段落或字串,须将整份文件解压缩,而导致速度极慢的缺点。本发明中的压缩方法,还可包含一分段压缩的方式,也就是在压缩的过程中,采用分段进行的方法,也就是在压缩过程50之中,于由读入字元判断是否到达结尾过程中,加入一检查分段点的过程,当读入一分段的代表字元时,即输出代码,并将个别段落所得的压缩信息建立一与索引文件的对应关系,例如建立其存储位址等。以电子辞典的信息内容而言,即是以每一个字词及其内文字串,作为独立段落的基准,如图5所示。信息文件10包含一索引信息10a及一字串信息10b,索引信息10a包含电子辞典信息的各字词,字串信息10b包含电子辞典信息各字词的内文或解释字串,而压缩后的索引文件14a中的个别字词,仍能保持具有与压缩后的信息文件14b的相互对应关系,当必须查询或是检出某一字词的内文字串时,仅需依照此一对应关系,针对特定的字串作解压缩的动作,可大幅度加快信息取出的速度,提高即时解压缩的效率。
因此,在进行信息压缩处理过程中,利用对于静态压缩字典的参照,将信息文件的内容,转换为代码,减少所占空间,并将未包含于静态压缩字典中的字串,存放于动态压缩字典中,成为一低频字串的参考存储区,完成对信息文件压缩的过程。
本发明中所提供的信息压缩方法,利用一静态压缩字典及一动态压缩字典的建立,使静态压缩字典包含使用频率高的字串,而将使用频率低的字串置于动态压缩字典中,并于静态压缩字典中包含与字串一一对应的代码,增加对文件压缩的压缩率。并可加入一字串频率统计过程,针对文件中所有出现的定长或不定长的字串,进行出现次数的统计,并将出现频率加以排列,加入静态压缩字典中,以更增加此信息压缩方法的压缩率。也可藉由一分段结构的特征,加快取出信息时、即时解压缩的速度,且可使用于不同语系的信息文件,以相同的实施方式,达到对信息文件压缩的目的。与传统的压缩方法如ARJ、PKZIP、甚至是LZW的分段压缩方式比较而言,本发明中的压缩方法,当应用于电子辞典的信息时,可大幅提高压缩率达传统压缩方法的两倍以上,同时藉由其压缩特性及分段结构的特征,在取出字串信息时,其即时解压缩的平均时间仅为传统压缩方法的四分之一,提高了该一压缩及解压缩方法应用的便利性及使用效能。
本发明以一较佳实施例说明如上,仅用于藉以帮助了解本发明的实施,并非用以限制本发明的精神,而本领域的技术人员在理解本发明的精神后,在不脱离本发明的精神范围内,可作些许更动润饰及等同的变化替换,其专利保护范围应当以权利要求及其等同物的范围而定。

Claims (30)

1.一种信息压缩方法,用以压缩一信息文件,该方法至少包含下列步骤:
建立一静态压缩字典,该静态压缩字典至少包含多个代码,一对一的对应于多个字串;
由该信息文件中读入一字元,加入一暂存字串;
于该静态压缩字典中,搜寻该暂存字串;
当该暂存字串存在于该静态压缩字典时,由该信息文件中读入下一个该字元,加入该暂存字串中;及
当该暂存字串不存在于该静态压缩字典中时,输出一对应于一前一个该暂存字串的一代码,且以最后读入的该字元取代为该暂存字串,并由该信息文件中读入下一个该字元,为入该暂存字串中。
2.如权利要求1的信息压缩方法,其中于所述的建立该静态压缩字典的步骤前,还包含一建立一压缩信息的步骤,以于该搜寻该暂存字串的步骤中,输出该代码至该压缩信息中,用以存储该信息文件压缩后的信息。
3.如权利要求1的信息压缩方法,其中所述的当该暂存字串不存在于该静态压缩字典中时的步骤中,包含将该暂存字串存入一动态压缩字典中的步骤。
4.如权利要求3的信息压缩方法,其中于所述的将该暂存字串存入该动态压缩字典的步骤后,包含一更新步骤,当该动态压缩字典达到一容量上限时,以清除一低频字串方式,更新该动态压缩字典。
5.如权利要求1的信息压缩方法,其中所述的信息压缩方法是用以压缩一电子辞典中的该信息文件。
6.如权利要求1的信息压缩方法,其中包含进行一字串频率统计的步骤,以于该提供该静态压缩字典的步骤执行前,用以产生该静态压缩字典,该字串频率统计的步骤至少包含下列步骤:
建立一基本压缩字典;
由该信息文件中读入一字元,加入一暂存字串中;
由该信息文件中读入下一个该字元,加入于该暂存字串中;
记录该暂存字串的出现次数;
于该基本压缩字典中,搜寻该暂存字串;
当该暂存字串存在于该基本压缩字典中时,由该信息文件中读入下一个该字元,加入该暂存字串中;
当该暂存字串不存在于该基本压缩字典中时,将该暂存字串存入该基本压缩字典中,以最后读入的该字元取代为该暂存字串,并由该信息文件中读入下一个该字元,加入该暂存字串中;及
进行一排序步骤,取出多个高频字串,以产生该静态压缩字典,用以建立对应于该多个高频字串的该多个代码。
7.如权利要求6的信息压缩方法,其中所述的将该暂存字串存入该基本压缩字典中的步骤,包含一更新步骤,当该基本压缩字典达到一容量上限时,以清除一低频字串方式,更新该基本压缩字典。
8.如权利要求1的信息压缩方法,其中所述的信息压缩方法包含一对应的一信息解压缩方法,用以还原一压缩信息,该信息解压缩方法至少包含下列步骤:
由该压缩信息中读入一压缩代码;
于该静态压缩字典中,搜寻该压缩代码;
当该压缩代码存在于该静态压缩字典中时,输出相同于该压缩代码所对应的一字串;及
当该压缩代码不存在于该静态压缩字典中时,输出该压缩代码的一字元。
9.如权利要求8的信息压缩方法,其中所述的搜寻步骤包含下列步骤:
当该压缩代码存在于该静态压缩字典中时,将该字串的一第一字元合并于前一次输出的该字串之后,存入该动态压缩字典之中;及
当该压缩代码不存在于该静态压缩字典中时,将前一次输出的该字串的一第一字元合并于前一次输出的该字串之后,存入该动态压缩字典之中。
10.一种信息压缩方法,用以压缩一电子辞典的内容,该方法至少包含下列步骤:
建立一静态压缩字典,该静态压缩字典至少包含多个代码,一对一的对应于多个字串;
由该电子辞典中读入下一个该字元,加入一暂存字串;
于该静态压缩字典中,搜寻该暂存字串;
当该暂存字串存在于该静态压缩字典时,由该电子辞典中读入下一个该字元,加入该暂存字串中;及
当该暂存字串不存在于该静态压缩字典中时,输出一对应于一前一个该暂存字串的一代码,以最后读入的该字元取代为该暂存字串,由该电子辞典中读入下一个该字元,加入该暂存字串中。
11.如权利要求10的信息压缩方法,其中于所述的建立该静态压缩字典的步骤前,还包含一建立一压缩信息的步骤,以于该搜寻该暂存字串的步骤中,输出该代码至该压缩信息中,用以存储该信息文件压缩后的信息。
12.如权利要求10的信息压缩方法,其中所述的当该暂存字串不存在于该静态压缩字典中时的步骤中,包含将该暂存字串存入一动态压缩字典中的步骤。
13如权利要求12的信息压缩方法,其中于所述的将该暂存字串存入该动态压缩字典的步骤后,包含一更新步骤,当该动态压缩字典达到一容量上限时,以清除一低频字串方式,更新该动态压缩字典。
14.如权利要求10的信息压缩方法,其中包含进行一字串频率统计的步骤,以于该提供该静态压缩字典的步骤执行前,用以产生该静态压缩字典,该字串频率统计的步骤至少包含下列步骤:
建立一基本压缩字典;
由该信息文件中读入一字元,加入一暂存字串中;
由该信息文件中读入下一个该字元,加入于该暂存字串中;
记录该暂存字串的出现次数;
于该基本压缩字典中,搜寻该暂存字串;
当该暂存字串存在于该基本压缩字典中时,由该信息文件中读入下一个该字元,加入该暂存字串中:
当该暂存字串不存在于该基本压缩字典中时,将该暂存字串存入该基本压缩字典中,以最后读入的该字元取代为该暂存字串,并由该信息文件中读入下一个该字元,加入该暂存字串中;及
进行一排序步骤,取出多个高频字串,以产生该静态压缩字典,用以建立对应于该多个高频字串的该多个代码。
15.如权利要求14的信息压缩方法,其中所述的将该暂存字串存入该基本压缩字典中的步骤,包含一更新步骤,当该基本压缩字典达到一容量上限时,以清除一低频字串方式,更新该基本压缩字典。
16.如权利要求10的信息压缩方法,其中所述的信息压缩方法包含一对应的一信息解压缩方法,用以还原一压缩信息,该信息解压缩方法至少包含下列步骤:
由该压缩信息中读入一压缩代码;
于该静态压缩字典中,搜寻该压缩代码;
当该压缩代码存在于该静态压缩字典中时,输出相同于该压缩代码所对应的一字串;及
当该压缩代码不存在于该静态压缩字典中时,输出该压缩代码的一字元。
17.如权利要求16的信息压缩方法,其中所述的搜寻步骤包含下列步骤:
当该压缩代码存在于该静态压缩字典中时,将该字串的一第一字元合并于前一次输出的该字串之后,存入该动态压缩字典之中;及
当该压缩代码不存在于该静态压缩字典中时,将前一次输出的该字串的一第一字元合并于前一次输出的该字串之后,存入该动态压缩字典之中。
18.一种信息压缩方法,该信息压缩方法为一分段式压缩方法,用以分段压缩一电子辞典的内容,以于压缩后保持一索引文件与一压缩后文件的对应,该方法至少包含下列步骤:
建立一压缩信息;
进行一字串频率统计,以产生一静态压缩字典,该静态压缩字典至少包含多个代码,一对一的对应于多个字串;
由该电子辞典中读入一字元,加入一暂存字串;
于该静态压缩字典中,搜寻该暂存字串;
当该暂存字串存在于该静态压缩字典时,由该电子辞典中读入下一字元,加入该暂存字串中;及
当该暂存字串不存在于该静态压缩字典中时,输出一对应于一前一暂存字串的一代码至该压缩信息中,并将该暂存字串存入一动态压缩字典中,更新该暂存字串为一最后读入的字元,由该电子辞典中读入下一字元,加入该暂存字串中。
19.如权利要求18的信息压缩方法,其中于所述的将该暂存字串存入该动态压缩字典的步骤后,包含一更新步骤,当该动态压缩字典达到一容量上限时,以清除一低频字串方式,更新该动态压缩字典。
20.如权利要求18的信息压缩方法,其中所述的字串频率统计的步骤至少包含下列步骤:
建立一基本压缩字典;
由该信息文件中读入一字元,加入一暂存字串中;
由该信息文件中读入下一个该字元,加入于该暂存字串中;
记录该暂存字串的出现次数;
于该基本压缩字典中,搜寻该暂存字串;
当该暂存字串存在于该基本压缩字典中时,由该信息文件中读入下一个该字元,加入该暂存字串中;
当该暂存字串不存在于该基本压缩字典中时,将该暂存字串存入该基本压缩字典中,以最后读入的该字元取代为该暂存字串,并由该信息文件中读入下一个该字元,加入该暂存字串中;及
进行一排序步骤,取出多个高频字串,以产生该静态压缩字典,用以建立对应于该多个高频字串的该多个代码。
21.如权利要求20的信息压缩方法,其中所述的将该暂存字串存入该基本压缩字典中的步骤,包含一更新步骤,当该基本压缩字典达到一容量上限时,以清除一低频字串方式,更新该基本压缩字典。
22.如权利要求18的信息压缩方法,其中所述的信息压缩方法包含一对应的一信息解压缩方法,用以还原一压缩信息,该信息解压缩方法至少包含下列步骤:
由该压缩信息中读入一压缩代码;
于该静态压缩字典中,搜寻该压缩代码;
当该压缩代码存在于该静态压缩字典中时,输出相同于该压缩代码所对应的一字串;及
当该压缩代码不存在于该静态压缩字典中时,输出该压缩代码的一字元。
23.如权利要求22的信息压缩方法,其中所述的搜寻步骤包含下列步骤:
当该压缩代码存在于该静态压缩字典中时,将该字串的一第一字元合并于前一次输出的该字串之后,存入该动态压缩字典之中;及
当该压缩代码不存在于该静态压缩字典中时,将前一次输出的该字串的一第一字元合并于前一次输出的该字串之后,存入该动态压缩字典之中。
24.一种信息压缩装置,用以压缩一信息文件,该信息压缩装置至少包含:
一静态压缩信息存储装置,该静态压缩信息存储装置包含多个代码,一对一的相对应于多个字串;及
一压缩装置,与该静态压缩信息存储装置相连结,该压缩装置读入该信息文件与该多个代码,用以进行压缩,以产生一压缩信息。
25.如权利要求24的信息压缩装置,其中所述的信息压缩装置包含一动态压缩信息存储装置,与该压缩装置相连,用以于该压缩步骤中存储多个动态字串信息。
26.如权利要求24的信息压缩装置,其中所述的信息压缩装置包含一字串频率统计装置,读入该信息文件,用以产生该信息文件的多个高频字串,以存储于该静态压缩信息存储装置之中。
27.如权利要求24的信息压缩装置,其中所述的信息压缩装置包含一解压缩装置,与该静态压缩信息存储装置相连结,该解压缩装置用以读入该压缩信息,藉由该多个字串,执行一解压缩步骤,以产生一还原信息文件。
28.如权利要求24的信息压缩装置,其中所述的信息压缩装置是用以压缩一电子辞典中的该信息文件。
29.一种信息压缩装置.该信息压缩装置为一分段式压缩装置,用以分段压缩一电子辞典的内容,以于压缩后保持一索引文件与一压缩后文件的对应,该信息压缩装置至少包含:
一静态压缩信息存储装置,该静态压缩信息存储装置至少包含多个代码,一对一的对应于多个字串;
一字串频率统计装置,读入该信息文件,用以产生该信息文件的多个高频字串,以存储于该静态压缩信息存储装置之中,与该信息文件及该静态压缩信息存储装置相连,用以产生该信息文件的多个高频字串,以存储于该静态压缩信息存储装置之中;
一动态压缩信息存储装置,用以存储多个动态字串信息;及
一压缩装置,与该静态压缩信息存储装置及该动态压缩信息存储装置相连结,该压缩装置读入该信息文件与该多个代码,用以进行压缩,以产生一压缩信息。
30.如权利要求29的信息压缩装置,其中所述的信息压缩装置包含一解压缩装置,与该静态压缩信息存储装置相连结,该解压缩装置用以读入该压缩信息,藉由该多个字串,执行一解压缩步骤,以输出一还原信息文件。
CN98104231A 1998-01-14 1998-01-14 信息压缩方法及其装置 Pending CN1186987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN98104231A CN1186987A (zh) 1998-01-14 1998-01-14 信息压缩方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN98104231A CN1186987A (zh) 1998-01-14 1998-01-14 信息压缩方法及其装置

Publications (1)

Publication Number Publication Date
CN1186987A true CN1186987A (zh) 1998-07-08

Family

ID=5218195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98104231A Pending CN1186987A (zh) 1998-01-14 1998-01-14 信息压缩方法及其装置

Country Status (1)

Country Link
CN (1) CN1186987A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101142798B (zh) * 2005-08-31 2010-05-12 中兴通讯股份有限公司 一种用于多方通信系统的信令压缩方法
CN101116054B (zh) * 2005-02-03 2010-05-19 三菱电机株式会社 程序码生成支持装置及方法、程序执行装置及方法、程序码压缩装置及方法及其程序
CN101540613B (zh) * 2009-04-10 2012-10-10 深圳市新飞扬数码技术有限公司 一种数据压缩方法及其装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116054B (zh) * 2005-02-03 2010-05-19 三菱电机株式会社 程序码生成支持装置及方法、程序执行装置及方法、程序码压缩装置及方法及其程序
CN101142798B (zh) * 2005-08-31 2010-05-12 中兴通讯股份有限公司 一种用于多方通信系统的信令压缩方法
CN101540613B (zh) * 2009-04-10 2012-10-10 深圳市新飞扬数码技术有限公司 一种数据压缩方法及其装置

Similar Documents

Publication Publication Date Title
Moffat Word‐based text compression
US8838551B2 (en) Multi-level database compression
US10558705B2 (en) Low RAM space, high-throughput persistent key-value store using secondary memory
US8120516B2 (en) Data compression using a stream selector with edit-in-place capability for compressed data
US8650368B2 (en) Method and apparatus for detecting the presence of subblocks in a reduced redundancy storing system
US6657565B2 (en) Method and system for improving lossless compression efficiency
CN105846825B (zh) 压缩方法、解压缩方法、压缩装置以及解压缩装置
CN104715039A (zh) 基于硬盘和内存的列式存储和查询方法及设备
JP2001526853A (ja) データ符号化ネットワーク
WO2006094367A1 (en) Method for detecting the presence of subblocks in a reduced-redundancy storage system
CN106547911B (zh) 一种海量小文件的存取方法和系统
US5394143A (en) Run-length compression of index keys
CA2770348A1 (en) Compression of bitmaps and values
CN1851691A (zh) 数据库备份数据的压缩和检索方法
CN1186987A (zh) 信息压缩方法及其装置
US20030097523A1 (en) External storage device within a computer network
US8463759B2 (en) Method and system for compressing data
CN113366463A (zh) 用于消除计算机存储器中的副本和值冗余的系统、方法和设备
US6266671B1 (en) Data storage apparatus, method, and medium with variable data storage structure
US8918374B1 (en) Compression of relational table data files
CN1269034C (zh) 一种嵌入式系统中可执行文件的压缩及其加载方法
US20030051005A1 (en) Apparatus for encapsulating data within a self-defining file and method thereof
US8244677B2 (en) Focal point compression method and apparatus
CN103198127A (zh) 大文件排序方法及系统
CN109271463B (zh) 一种恢复MySQL数据库的innodb压缩数据的方法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication