CN112003623A

CN112003623A - 一种藏文文本压缩算法

Info

Publication number: CN112003623A
Application number: CN202010839176.1A
Authority: CN
Inventors: 索南尖措; 尼玛扎西; 仁青诺布; 格桑多吉; 普布旦增
Original assignee: Tibet University
Current assignee: Tibet University
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-11-27
Anticipated expiration: 2040-08-19
Also published as: CN112003623B

Abstract

本发明公开了一种藏文文本压缩算法，本发明根据对20G藏文网页中的藏文文本进行了统计分析，并由此建立了TiCA算法的映射字典，再根据映射字典，将原来由编码组成的藏文字映射为一个编码的方法来对藏文文本进行压缩。在这个过程中，需要扫描待压缩文本，根据每段藏文的起始位置区间，将过滤后的藏文文本进行压缩，再遍历第一步筛选出的每个藏文位置区间，通过藏文的音节符将每个区间内的藏文字符串分割成藏文字，最后将一个或多个藏文构件组成的藏文字映射为一个编码，由此完成藏文文本的压缩。根据该字典，完成了本发明所提出的藏文文本压缩算法TiCA，提高了TiCA算法的鲁棒性。通过实验证明了无论是在压缩率还是在耗时方面，都取得了优异的效果。

Description

一种藏文文本压缩算法

技术领域

本发明及藏文文本的压缩领域，具体地说，涉及一种藏文文本压缩算法。

背景技术

目前，国际国内对文本压缩的研究已经取得较大成果，出现了基于字典编码的LZ系列算法和基于算术编码的压缩算法，由于文本数据必须进行精确重建，只能进行Huffman编码、算术编码、游程编码、LZ编码等无失真压缩算法。

而一般化的文本压缩算法主要有LZ算法和LZW算法等改进的相关算法，这些算法在英文、汉文等常见文字的文本压缩技术已经非常成熟，但是藏文文本压缩在这一工作领域研究较少，根据本发明调查研究发现，目前针对藏文文本压缩的研究，只有边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法和李加才让等人提出的改进LZW算法。边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法，主要利用“标记1”消除音节分隔符和利用藏文字符编码范围全在编码0F00-0FFF之间的特点，在进行压缩编码的时候去掉藏文字符编码的开头“0F”，由此来减少存储空间，然后利用LZ77算法再对其进行压缩，该算法虽然能够对藏文文本起到一定的压缩，但是如果文本中出现了与该算法使用的“标记1”相同的字符，就会导致该算法解码错误，其次，该算法没有充分利用藏文字属于音节字的特点，没有从藏文文字构成的角度出发进行设计文本压缩算法；李加才让等人提出的改进LZW算法根据藏文文本的特点，提出三种藏文文本的数据压缩算法，即分别是以字符为LZW字典的LZWTB1压缩算法、以字丁为LZW字典的LZWTB2压缩算法和以词为LZW字典的LZWTB3压缩算法。这三种算法本质上还是LZW算法，而且LZWTB2算法需要对藏文字丁进行识别处理，LZWTB3算法需要预先进行分词处理，而藏文分词的研究本就是一个基础的课题。无论是边巴旺堆等人还是李加才让等人对藏文文本压缩算法的研究，都没有从藏文字的角度出发进行处理，根据现代藏文文法规则，高定国等人统计出了19380个不同藏文字，并对其构件、长度等进行了整理和分析，发现藏文字是有限的。因此，从藏文字的构造的角度看藏文，一个藏文字最多由七个辅音构件和一个分割符组成，分别是基字、前加字、上加字、下加字、后加字、再后加字、元音、和音节分隔符构成，是具有可压缩性的。

现有的TiCA算法中有很多的符号，如音节点的符号为：“.”，单线的符号为：

双线的符号为：

分章号的符号为；

而TiCA为一种基于拓扑独立成分分析(TICA)和高斯混合模型(GMM)的视频语义概念检测算法。所以现有的TiCA算法不利于文本压缩。为了解决该问题，本发明从藏文字的角度出发，主要基于藏文字映射的编码方法，实现了一种藏文文本压缩算法。

发明内容

本发明的目的在于为一种藏文文本压缩算法，本发明所提出的藏文文本压缩算法压缩效果更好，耗时更少。

为了达到上述目的，本发明采用的技术方案如下：

一种藏文文本压缩算法，首先，本发明根据对20G藏文网页中的藏文文本进行了统计分析，并由此建立了TiCA算法的映射字典，具体步骤如下：

第一步：对藏文网页进行预处理，根据藏文的Unicode编码区间“0F00-0FFF”，提取藏文网页中的藏文文本，非藏文文本采用藏文音节点“.”进行代替；

第二步：删除集合D中的藏文字符，集合D为：

该集合主要是藏文的数字0至藏文数字9，以及一些藏文特殊符号；

第三步：将连续的藏文音节点“.”替换成单个藏文音节点“.”，单个藏文音节点“.”保留；

第四步：根据藏文句子结尾双线标志

(\u0f0d\u0f0d)或者双线标志

(\u0f0e)或者分章号标志

或者单线标志

(\u0f0d)对藏文文本进行分句，然后根据音节点“.”(\u0f0b)将每个句子再划分为字；

第五步：统计每个藏文字的出现的次数以及该藏文字构件的个数，按照二者乘积的结果从大到小对每个藏文字进行排序；乘积相同的根据藏文字构件个数从大到小进行排序；乘积相同并且藏文字构件个数相同的，根据出现次数从大到小进行排序；藏文字构件个数相同并且出现的次数也相同的，则根据该藏文字的字典序从大到小进行排序；

第六步：将字典中的每个藏文字的一个或者多个编码映射为一个编码，具体映射方式为，将字典中前6400个藏文字依次映射到E000-F8FF，即Unicode 编码的私用区(Private Use Zone)；然后将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间，即E0000-FEE1C区间。

然后，根据TiCA算法建立的映射字典，再将藏文文本进行压缩，具体步骤如下：

第一步：扫描待压缩文本，根据藏文的Unicode编码区间“0F00-0FFF”，确定文本中除集合E之外的每段藏文的起始位置区间，集合E为：

然后再过滤后的藏文文本进行压缩。在集合E中，其中字符

指编码为“\u0f0e”的字符，字符“.”指编码为“\u0f0c”的字符；

第二步：遍历第一步筛选出的每个藏文位置区间，通过藏文的音节符“.” (\u0f0b)将每个区间内的藏文字符串分割成藏文字；

第三步：根据TiCA算法映射字典，将一个或多个藏文构件组成的藏文字映射为一个编码。

由此完成本发明藏文文本的整个压缩过程。

本发明与现有技术相比，具有的有益效果如下：

本发明的目的在于一种藏文文本压缩算法，本发明针对每个藏文音节(藏文字)由一个到七个构件构成，并且每个构件有唯一一个Unicode编码的特点，提出了一种藏文文本压缩算法TiCA。本发明首先通过对20G藏文原始文本语料统计分析，建立了一个具有容错性的映射字典，作为TiCA算法的字典；然后， TiCA算法根据映射字典，通过将每个藏文字的一个或者多个编码映射为一个编码的方法对藏文文本进行压缩；最后通过实验对比表明，本发明所提出的藏文文本压缩算法TiCA无论在压缩率还是在耗时方面，都取得了优异的效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并作详细说明如下。

附图说明

图1为本发明的TiCA算法压缩流程图。

具体实施方式

下面通过实施例对本发明进行具体描述，有必要在此指出的是以下实施例只是用于对本发明进行进一步说明，不能理解为对发明保护范围的限制，改领域的技术人员可以根据上述本发明内容对本发明做出一些非本质的改进和调整。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动的前提下，所获得的所有其他实施例，都属于本发明保护的范围。

TiCA藏文文本压缩算法的核心思想是通过映射字典，将一个藏文字中由原来的1个至7个UTF-8编码组成映射为一个编码，由此达到文本压缩的目的。因此，映射字典的设计至关重要。如果仅仅根据现代藏文字典制定藏文文本压缩算法的映射字典，由于人们输入的不规范、拼写错误等原因，将会存在大量的未登录藏文字无法进行压缩和映射。所以这里先给出了一种基于统计分析建立映射字典的方法。

具体方法如下：

TiCA藏文文本压缩算法的核心思想是通过映射字典，将一个藏文字中由原来的1个至7个UTF-8编码组成映射为一个编码，由此达到文本压缩的目的。因此，映射字典的设计至关重要。如果仅仅根据现代藏文字典制定藏文文本压缩算法的映射字典，由于人们输入的不规范、拼写错误等原因，将会存在大量的未登录藏文字无法进行压缩和映射。由此，本发明提出了一种基于统计分析建立映射字典的方法。

首先，本发明根据对20G藏文网页中的藏文文本进行了统计分析，并由此建立了TiCA算法的映射字典。具体方式如下：

第一步：对藏文网页进行预处理，藏文的Unicode编码区间从0F00至0FFF，提取藏文网页中的藏文文本，非藏文文本采用藏文音节点“.”进行代替，非藏文文本指的是@、#、￥或者空格等；

第二步：删除集合D中的藏文字符，集合D为：

该集合主要是藏文的数字0至藏文数字9，以及一些藏文特殊符号。由于每个数字都是一个藏文字，然而数字是无穷尽的，如果保留数字进行藏文字的统计，这将会导致本发明所提出的TiCA算法的映射字典剧增，进而会大大影响该算法的压缩效率；同样的，将藏文的特殊符号删除的原因，也是为了减少映射字典的数量和提高压缩算法的效率。

第三步：由于藏文中有将音节点“.”(\u0f0c)作为藏文字的分隔符，也有将音节点“.”(\u0f0b)作为藏文字的分隔符，所以为了便于后续的统计分析，本步将连续的藏文音节点“.”替换成单个藏文音节点“.”，单个藏文音节点进行保留“.”；

第四步：根据藏文句子结尾双线标志

(\u0f0d\u0f0d)或者双线标志

(\u0f0e)或者分章号标志

或者单线标志

(\u0f0d)对藏文文本进行分句，然后根据音节点“.”(\u0f0b)将每个句子再划分为字。由此，得到映射字典中需要进行映射的藏文字，共计132893个藏文字；

第五步：统计每个藏文字的出现的次数以及该藏文字构件的个数，按照二者乘积的结果从大到小对每个藏文字进行排序；乘积相同的根据藏文字构件个数从大到小进行排序；乘积相同并且藏文字构件个数相同的，根据出现次数从大到小进行排序；藏文字构件个数相同并且出现的次数也相同的，则根据该藏文字的字典序从大到小进行排序。由此，得到映射字典中需要进行映射的藏文字的顺序。

第六步：将字典中的每个藏文字的一个或者多个编码映射为一个编码，具体映射方式为，将字典中前6400个藏文字依次映射到E000-F8FF，即Unicode 编码的私用区(Private Use Zone)；然后将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间，即E0000-FEE1C区间。由此，完成了TiCA算法映射字典的建立。

然后，根据TiCA算法来映射字典，再将每个藏文字的一个或者多个编码映射为一个编码的方法对藏文文本进行压缩，具体的流程如图1所示：

然后再过滤后的藏文文本进行压缩。在集合E中，其中字符

第三步：根据TiCA算法映射字典，将一个或多个藏文构件组成的藏文字映射为一个编码，由此完成藏文文本的压缩。

为了验证TiCA算法的效果，本发明在4个不同大小的藏文文本上分别做了实验，本发明的实验在笔记本电脑上，基于Spyder集成环境，采用Python 语言进行实验的，笔记本电脑的配置为：Intel(R)Core(TM)i5-3230M CPU @2.60GHz 2.60Ghz，8.00GB内存，windows1064位操作系统。

由于文本的压缩一般要求都是无损压缩，所以衡量文本压缩效果的好坏主要看压缩率(Compression rate)和耗时。压缩率是指文件压缩后的大小与压缩前的大小之比，压缩率越小说明压缩效果越好；耗时是指完成文件压缩所需要的时间，同样的，所需耗时也是越少越好，由于不同性能的电脑，在耗时方面会有稍微差别，即使同一台电脑，每次实验也会有稍微差别，为了减少耗时误差，本发明的耗时是针对同一个文件压缩测试4次，取平均时间作为最终的耗时。

本发明进行了4次实验测试，即4个实施例，分别将文本的大小设置为：文本1为334KB、文本2为658KB、文本3为2943KB、文本4为137795KB，4 次实验测试得到的算法结果如下表1所示：

文本名	文本大小(KB)	压缩后大小(KB)	压缩率	耗时(s)
					文本1	334	80	23.95％	0.11
文本2	658	155	23.56％	0.14
					文本3	2943	708	24.06％	0.38
文本4	137795	32982	23.94％	65.14

表1

文本3为一般我们常见文件的大小，根据文本3，我们可以计算出TiCA 算法的压缩速度每秒可以达到7.5M；随着文本的增大，TiCA的压缩率会趋于稳定，根据文本4的压缩实验，我们可以计算出TiCA算法的压缩率，TiCA算法的压缩率为23.94％，优于边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法的24.40％；在耗时方面，由于受到实验设备性能的限制，文本过大时耗时会增加，但仍然达到了每秒压缩2M以上，是可以接受的。

下面本发明会将本发明的藏文文本压缩算法与李加才让等人提出的藏文文本压缩算法做对比，对比如下：

文本1的设置为334KB，实验后的对比结果如下表2：

算法	文本大小(KB)	压缩后大小(KB)	压缩率(％)	耗时(s)
					LZWTB1	334	149	44.61	0.78
LZWTB2	334	151	45.20	1.09
					LZWTB3	334	81	24.25	3.27
TiCA	334	80	23.95	0.11

表2

从表2中可以看出，如果文本的设置为334KB，TiCA算法的压缩率为 23.95％，耗时为0.11s,为四种算法种效果最好的。

文本的设置为658KB，实验后的对比结果如下表3：

算法	文本大小(KB)	压缩后大小(KB)	压缩率(％)	耗时(s)
					LZWTB1	658	278	42.24	0.99
LZWTB2	658	277	42.09	1.4
					LZWTB3	658	162	24.62	5.58
TiCA	658	155	23.56	0.14

表3

从表3中可以看出，如果文本的设置为658KB，TiCA算法的压缩率为 23.56％，耗时为0.14s,为四种算法中效果最好的。

文本的设置为2943KB，实验后的对比结果如下表4：

算法	文本大小(KB)	压缩后大小(KB)	压缩率(％)	耗时(s)
					LZWTB1	2943	1186	40.29	1.24
LZWTB2	2943	1186	40.29	1.66
					LZWTB3	2943	739	25.11	50.19
TiCA	2943	708	24.06	0.38

表4

从表4中可以看出，如果文本的设置为2943KB，TiCA算法的压缩率为24.06％，耗时为0.38s，虽然耗时增加了，但是依然是四种算法中最优的。

本发明的目的在于提供一种藏文文本压缩算法，本发明通过对20G藏文网页资源进行整理统计，建立了一个具有容错性的映射字典，并根据该字典，完成了本发明所提出的藏文文本压缩算法TiCA，提高了TiCA算法的鲁棒性，即控制系统在一定的结构和大小参数摄动下，维持其它某些性能的特性。最后，通过实验证明了无论是在压缩率还是在耗时方面，都取得了优异的效果。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。