CN102567294A - 文本数据处理方法和装置 - Google Patents

文本数据处理方法和装置 Download PDF

Info

Publication number
CN102567294A
CN102567294A CN2010105865508A CN201010586550A CN102567294A CN 102567294 A CN102567294 A CN 102567294A CN 2010105865508 A CN2010105865508 A CN 2010105865508A CN 201010586550 A CN201010586550 A CN 201010586550A CN 102567294 A CN102567294 A CN 102567294A
Authority
CN
China
Prior art keywords
character
data stream
compression
languages
compression method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105865508A
Other languages
English (en)
Inventor
仇睿恒
胡薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN2010105865508A priority Critical patent/CN102567294A/zh
Publication of CN102567294A publication Critical patent/CN102567294A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种文本数据处理方法,包括:读取待压缩文本数据的数据流;对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩;对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。相应地,提供一种文本数据处理装置。本发明基于语种类别,分别利用不同的压缩方法对各个语种数据流进行压缩,从而提高了包含多个语种的文本数据的压缩率。

Description

文本数据处理方法和装置
技术领域
本发明涉及文本数据处理技术领域,尤其涉及一种文本数据处理方法和装置。
背景技术
目前,存在许多文本数据压缩方法。但是,这些压缩方法通常都是仅针对某种特殊语种采用特定的压缩方法进行压缩,而对于包含多种语种的文本数据的压缩,目前尚缺乏有效的压缩方法。
在申请号为02819502.7的中国专利“字数据库压缩”中,提出了一种对不同语种的字数据库进行压缩的方法。在该方法中,按字母顺序对不同语种的字进行排序,并按照树状结构来排列字数据库中的字,在树状结构的节点中存储由两个或多个按字母顺序接连的字所共用的公共前缀,并将各个字的相应末尾都保存为相应节点的叶节点。但是,这种方法仅针对于利用字母排列的西方语言,而不适用于其它语言,比如中文、日文和韩文等亚洲语言。
在申请号为200710076577.0的中国专利“在手持学习终端上实现的联合搜索的方法”中,提出了一种采用通用的方法对所有语种文本进行压缩的方法。在该方法中,采用通用的Huffman压缩方法或者发明人提出的前缀长度加后缀的压缩方法对所有文本字符进行压缩,采用发明人提出的数值加数值表示的压缩方法对数字进行压缩。在发明人提出的前缀长度加后缀的压缩方法中,将当前词条与关键词条库中的上一词条共有的字符作为前缀,并利用前缀长度表示该前缀的长度,后缀则为该词条中的其余字符。虽然该专利提出了一种可适用于所有语种文本的压缩方法,但是由于不同语种之间的区别巨大,这种通用的压缩方法仍然很难保证取得较好的压缩率。
发明内容
为了解决以上问题,本发明提供一种文本数据处理方法和装置,以实现对包含多种语种的文本数据的高效率压缩。
为了实现以上目的,本发明提供的文本数据处理方法包括:读取待压缩文本数据的数据流;对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩;对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。
优选地,所述方法还包括以下步骤:根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置,生成配置文件。
优选地,还包括以下步骤:根据已指定压缩方法的语种数据流、压缩该语种数据流的指定压缩方法、和相应压缩工具在本地或网络上的位置,生成配置文件。
优选地,对于任一种语种数据流,如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范,则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。
优选地,根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符,其中,拉丁字符属于能够通过空格和标点将词分开的语种字符,扩展字符属于不能通过空格和标点将词分开的语种字符。
优选地,对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种,采用相同的默认压缩方法或者分别采用不同的默认压缩方法。
优选地,对于拉丁字符和扩展字符,默认压缩方法包括以下步骤:对于拉丁字符,根据空格和标点将拉丁字符分成多个词,并统计各个词的出现频率,形成初步的字典;对于扩展字符,直接将每个字符提取出来,并统计每个字符的出现频率,形成所述初步的字典;对所述初步的字典中的词或字符按照出现频率进行排序,删除出现频率小于预定值的词或字符;对于所述初步的字典中剩余的词或字符分配编码,并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。
优选地,对于属于拉丁字符的英语字符,指定PPM方法;和/或对于属于扩展字符的中文字符,指定LZSSCN压缩方法;和/或对于属于扩展字符的日语,指定HORI压缩方法。
相应地,本发明提供一种文本数据处理装置,包括:输入单元,其用于打开文本数据文件,建立该文件的文本数据的数据流;压缩单元,其用于读取通过输入单元输入的数据流,对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩,对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;合并单元,其用于将经过压缩单元压缩的各数据流按照其在通过输入单元输入的数据流中的先后顺序进行合并;和配置单元,其用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件,使得压缩单元根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。
优选地,所述装置还包括用户界面,以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。
从以上技术方案可看出,本发明根据语种特征的不同将字符分类,用户可自由制定每个语种的压缩方法,通过调用用户指定的压缩方法来对指定语种数据流进行压缩,同时通过默认的压缩方法对未指定压缩方法的语种数据流进行压缩,从而提高了包含多个语种的文本数据的压缩率。
附图说明
图1是根据本发明实施例的文本数据压缩和合并步骤的示意图;
图2是根据本发明实施例的文本数据压缩装置的框图。
具体实施方式
本发明提供一种文本数据处理方法,包括以下步骤:
读取待压缩文本数据的数据流;
对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩;对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;
将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。
优选地,在本发明的各实施例中,还包括以下步骤:
根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置,生成配置文件。
优选地,在本发明的各实施例中,还包括以下步骤:
根据已指定压缩方法的语种数据流、压缩该语种数据流的指定压缩方法、和相应压缩工具在本地或网络上的位置,生成配置文件。
优选地,在本发明的各实施例中,对于任一种语种数据流,如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范,则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。
优选地,在本发明的各实施例中,根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符,其中,拉丁字符属于能够通过空格和标点将词分开的语种字符,扩展字符属于不能通过空格和标点将词分开的语种字符。
优选地,在本发明的各实施例中,对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种,采用相同的默认压缩方法或者分别采用不同的默认压缩方法。
优选地,在本发明的各实施例中,对于拉丁字符和扩展字符,默认压缩方法包括以下步骤:
对于拉丁字符,根据空格和标点将拉丁字符分成多个词,并统计各个词的出现频率,形成初步的字典;对于扩展字符,直接将每个字符提取出来,并统计每个字符的出现频率,形成所述初步的字典;
对所述初步的字典中的词或字符按照出现频率进行排序,删除出现频率小于预定值的词或字符;对于所述初步的字典中剩余的词或字符分配编码,并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。
优选地,在本发明的各实施例中,
对于属于拉丁字符的英语字符,指定PPM方法;和/或
对于属于扩展字符的中文字符,指定LZSSCN压缩方法;和/或
对于属于扩展字符的日语,指定HORI压缩方法。
本发明还提供一种文本数据处理装置,包括:
输入单元,其用于打开文本数据文件,建立该文件的文本数据的数据流;
压缩单元,其用于读取通过输入单元输入的数据流,对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩,对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;
合并单元,其用于将经过压缩单元压缩的各数据流按照其在通过输入单元输入的数据流中的先后顺序进行合并;和
配置单元,其用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件,使得压缩单元根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。
优选地,在本发明的各实施例中,还包括用户界面,以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。
以下,将结合附图和实施例对本发明进行详细描述。
在本发明的实施例中,根据不同语种的特点将文本数据流中的字符分成四大类,包括拉丁字符、扩展字符、数字字符和标点字符,其中,拉丁字符为可以通过空格和标点等分隔符容易将词语分开的语种,例如,英语及法语等欧洲语言,扩展字符为不能通过空格和标点等分隔符简单地将词语分开的语种,例如中文、韩文、日文等。
对于拉丁字符、扩展字符、数字字符和标点字符,可采用相同的默认压缩方法(例如,zip压缩方法),也可分别采用不同的默认压缩方法。
例如,对于属于拉丁字符的英文和属于扩展字符的中文、日文,可采用以下默认压缩方法:
对于拉丁字符,根据空格和标点将拉丁字符分成多个词,并统计各个词的出现频率,形成初步的字典;对于扩展字符,直接将每个字符提取出来,并统计每个字符的出现频率,形成所述初步的字典;
对所述初步的字典中的词或字符按照出现频率进行排序,删除出现频率小于预定值的词或字符;对于所述初步的字典中剩余的词或字符分配编码,并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。
对于数字字符、标点字符以及其余的拉丁字符和扩展字符,可采用zip压缩方法或者其它公知或特定的压缩方法作为默认压缩方法。
当然,也可对所有拉丁字符和扩展字符均使用上述默认压缩方法。
在本实施例中,按照以下步骤进行文本数据压缩:
步骤1、根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置,生成配置文件。
在该步骤中,可根据需要按照任意指定格式生成配置文件。在本实施例中,配置文件采用如下格式:
Figure BSA00000384685400061
在以上格式中,对于每种压缩方法(compressMethod),指定其名称(name)、处理的语言(language)以及其压缩工具所在的位置(place)。
以下为利用XML语言实现以上格式的配置文件的示例:
Figure BSA00000384685400071
在以上配置文件中,每个<compressMethod></compressMethod>中为一种用户指定的压缩方法,其中包含压缩方法的名称(name)、处理的语种(language)及其压缩工具所在的位置(place)这三个元素。通过读取该配置文件,可以得知用户分别对英语、中文和日语三种语言指定了压缩方法:对于英语,用户指定采用PPM(部分匹配预测)压缩方法进行压缩,压缩工具位于可见位置的ppm.dll;对于中文,用户指定专门针对中文的文本压缩方法LZSSCN进行压缩(LZSS名称中的LZ是指Jacob Ziv和Abraham Lempel的名字缩写,LZSS名称中的SS是指Storer和Szymanski的名字缩写,CN是指Chinese,该算法为LZSS算法针对中文的改良),压缩工具位于可见位置的lzsscn.dll;对于日语,用户指定采用专门针对日文的文本压缩方法HORI进行压缩(Hori是一个人名,他设计了一种日文压缩方法并以他的名字命名),压缩工具位于可见位置的hori.dll。
这里,应当指出,以上格式的配置文件仅仅是示例性的,还可根据其它规范生成采用其它格式的配置文件。比如,配置文件的格式还可以是,为每个语种指定压缩方法和相应压缩工具所在的位置,即,每个<language></language>为一个语种,其中包含压缩方法(name)及其压缩工具所在的位置(place)这两个元素。
或者,还可以为用户提供对于每个语种可供选择的压缩方法以供用户从其中进行选择。
步骤2、读取待压缩文本的数据流,并对读取的数据流进行压缩。
图1中示出了本实施例中对不同类型的字符进行压缩的示意图。如图1所示,由于用户指定了英文、中文和日文的压缩方法,所以将文本数据分成六类:英文、中文、日文和除英文之外的拉丁字符、除中文和日文之外的扩展字符、数字字符和标点字符,其中,对于英文,调用位于ppm.dll的PPM方法进行压缩,对于中文,调用位于lzsscn.dll的LZSSCN方法进行压缩,对于日文,调用位于hori.dll的HROI方法进行压缩,对于其余的拉丁字符、扩展字符、数字字符和标点字符,采用默认压缩方法,即,zip压缩方法进行压缩。
这里,应当指出,对于任一种语种数据流,如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范,则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。比如,当找不到lzsscn.dll时,则利用上述默认压缩方法对中文进行压缩。
步骤3、合并压缩的文本数据。
在该步骤中,将经过压缩的每个数据流按照其在待压缩文本数据的数据流中的先后顺序进行合并,从而得到图1所示的合并后的数据文件作为最终的压缩数据。
图2是根据本实施例的文本数据处理装置的框图。如图1所示,该压缩装置包括输入单元100、压缩单元200、合并单元300和配置单元500,其中,输入单元100用于打开文本数据文件,建立该文件的文本数据的数据流;压缩单元200用于读取通过输入单元100输入的数据流,对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩,对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;合并单元300用于将经过压缩单元200压缩的各数据流按照其在通过输入单元100输入的数据流中的先后顺序进行合并;配置单元500用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件,使得压缩单元200根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。
此外,根据本实施例的文本数据压缩装置还可包括用户界面500,以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。
通过分别利用本实施例方法和zip压缩方法对多个包含中文等多个语种的文本数据进行压缩测试发现,本实施例方法与zip压缩方法相比,所得压缩率最多能有30%左右的提高。
以上已参照附图和实施例对本发明进行了详细描述,但是,应该理解,本发明并不限于以上所公开的具体实施例,任何本领域的技术人员在此基础之上容易想到的修改和变型都应包括在本发明的保护范围内。

Claims (10)

1.一种文本数据处理方法,包括以下步骤:
读取待压缩文本数据的数据流;
对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩;对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;
将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。
2.根据权利要求1所述的方法,其特征在于,还包括以下步骤:
根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置,生成配置文件。
3.根据权利要求1或2所述的方法,其特征在于,还包括以下步骤:
根据已指定压缩方法的语种数据流、压缩该语种数据流的指定压缩方法、和相应压缩工具在本地或网络上的位置,生成配置文件。
4.根据权利要求2或3所述的方法,其特征在于,对于任一种语种数据流,如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范,则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。
5.根据前述权利要求中任一项所述的方法,其特征在于,根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符,其中,拉丁字符属于能够通过空格和标点将词分开的语种字符,扩展字符属于不能通过空格和标点将词分开的语种字符。
6.根据权利要求5所述的方法,其特征在于,对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种,采用相同的默认压缩方法或者分别采用不同的默认压缩方法。
7.根据权利要求5所述的方法,其特征在于,对于拉丁字符和扩展字符,默认压缩方法包括以下步骤:
对于拉丁字符,根据空格和标点将拉丁字符分成多个词,并统计各个词的出现频率,形成初步的字典;对于扩展字符,直接将每个字符提取出来,并统计每个字符的出现频率,形成所述初步的字典;
对所述初步的字典中的词或字符按照出现频率进行排序,删除出现频率小于预定值的词或字符;对于所述初步的字典中剩余的词或字符分配编码,并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。
8.根据权利要求5、6或7所述的方法,其特征在于,
对于属于拉丁字符的英语字符,指定PPM方法;和/或
对于属于扩展字符的中文字符,指定LZSSCN压缩方法;和/或
对于属于扩展字符的日语,指定HORI压缩方法。
9.一种文本数据处理装置,包括:
输入单元,其用于打开文本数据文件,建立该文件的文本数据的数据流;
压缩单元,其用于读取通过输入单元输入的数据流,对于所述数据流中已指定压缩方法的语种数据流,以指定压缩方法或指定压缩工具进行压缩,对于所述数据流中未指定压缩方法的语种数据流,以默认压缩方法或默认压缩工具进行压缩;
合并单元,其用于将经过压缩单元压缩的各数据流按照其在通过输入单元输入的数据流中的先后顺序进行合并;和
配置单元,其用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件,使得压缩单元根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。
10.根据权利要求9所述的装置,其特征在于,还包括用户界面,以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。
CN2010105865508A 2010-12-09 2010-12-09 文本数据处理方法和装置 Pending CN102567294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105865508A CN102567294A (zh) 2010-12-09 2010-12-09 文本数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105865508A CN102567294A (zh) 2010-12-09 2010-12-09 文本数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN102567294A true CN102567294A (zh) 2012-07-11

Family

ID=46412739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105865508A Pending CN102567294A (zh) 2010-12-09 2010-12-09 文本数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN102567294A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101462A1 (zh) * 2012-12-31 2014-07-03 广州市动景计算机科技有限公司 网页文本压缩方法和装置
CN104734722A (zh) * 2013-12-23 2015-06-24 深圳市国微电子有限公司 数据压缩方法及数据解压缩装置
CN105629155A (zh) * 2015-12-28 2016-06-01 中国科学院声学研究所 一种测试数据的字典编码方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1279537A (zh) * 1999-07-02 2001-01-10 英业达集团(西安)电子技术有限公司 一种适用于宽字符集文档的压缩方法
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
US20060142997A1 (en) * 2002-12-27 2006-06-29 Per Jakobsen Predictive text entry and data compression method for a mobile communication terminal
CN1845099A (zh) * 2006-04-27 2006-10-11 掌富科技(南京)有限公司 智能移动终端多媒体电子文档转换存储方法及转换存储结构
CN101534124A (zh) * 2008-12-16 2009-09-16 北京航空航天大学 一种用于短小自然语言的压缩算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1279537A (zh) * 1999-07-02 2001-01-10 英业达集团(西安)电子技术有限公司 一种适用于宽字符集文档的压缩方法
US20060142997A1 (en) * 2002-12-27 2006-06-29 Per Jakobsen Predictive text entry and data compression method for a mobile communication terminal
CN1609845A (zh) * 2003-10-22 2005-04-27 国际商业机器公司 用于改善由机器自动生成的摘要的可读性的方法和装置
CN1845099A (zh) * 2006-04-27 2006-10-11 掌富科技(南京)有限公司 智能移动终端多媒体电子文档转换存储方法及转换存储结构
CN101534124A (zh) * 2008-12-16 2009-09-16 北京航空航天大学 一种用于短小自然语言的压缩算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEXANDER ROSHAL: "WinRAR 3.51及其帮助文档", 《WINRAR 3.51》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014101462A1 (zh) * 2012-12-31 2014-07-03 广州市动景计算机科技有限公司 网页文本压缩方法和装置
US9542373B2 (en) 2012-12-31 2017-01-10 Guangzhou Ucweb Computer Technology Co., Ltd Method and apparatus for compressing webpage text
CN104734722A (zh) * 2013-12-23 2015-06-24 深圳市国微电子有限公司 数据压缩方法及数据解压缩装置
CN104734722B (zh) * 2013-12-23 2018-05-01 深圳市国微电子有限公司 数据压缩方法及数据解压缩装置
CN105629155A (zh) * 2015-12-28 2016-06-01 中国科学院声学研究所 一种测试数据的字典编码方法
CN105629155B (zh) * 2015-12-28 2018-08-17 中国科学院声学研究所 一种测试数据的字典编码方法

Similar Documents

Publication Publication Date Title
CN104753540B (zh) 数据压缩方法、数据解压方法和装置
CN101783788B (zh) 文件压缩、解压缩方法、装置及压缩文件搜索方法、装置
JP3421700B2 (ja) データ圧縮装置及び復元装置並びにその方法
CN104283567A (zh) 一种名称数据的压缩、解压缩方法及设备
CN107561564B (zh) 一种北斗卫星信息传输的压缩实现方法
CN101534124B (zh) 一种用于短小自然语言的压缩算法
CN101796573B (zh) 显示装置、字符序列的显示方法、多个字符序列的排序方法
EP2978135A1 (en) Compression device, compression method, decompression device, decompression method, and information processing system
CN110518917A (zh) 基于Huffman编码的LZW数据压缩方法及系统
JPS59231683A (ja) データ圧縮方法
CN102567294A (zh) 文本数据处理方法和装置
CN105653506B (zh) 一种基于字符编码转换的gpu内文本处理的方法及装置
CN110287147B (zh) 一种字符串排序方法及装置
Hossain et al. Transliteration based bengali text compression using huffman principle
Awajan et al. Hybrid technique for Arabic text compression
CN115525728A (zh) 汉字排序、汉字检索和汉字插入的方法和装置
CN103138766A (zh) 数据压缩与解压缩的方法及装置
US10915559B2 (en) Data generation method, information processing device, and recording medium
Jrai et al. Improving LZW Compression of Unicode Arabic Text Using Multi-Level Encoding and a Variable-Length Phrase Code
KR20100021817A (ko) 텍스트 데이터 압축 방법
Shanmugasundaram et al. Text preprocessing using enhanced intelligent dictionary based encoding (EIDBE)
CN1617135A (zh) 提供双向双语词典的方法和系统
JPS6268325A (ja) 文章圧縮・伸展方式
KR100745292B1 (ko) 전자사전 검색 시스템
Bossard et al. Refining the Unrestricted Character Encoding for Japanese.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120711