CN112003623B - 一种藏文文本压缩算法 - Google Patents
一种藏文文本压缩算法 Download PDFInfo
- Publication number
- CN112003623B CN112003623B CN202010839176.1A CN202010839176A CN112003623B CN 112003623 B CN112003623 B CN 112003623B CN 202010839176 A CN202010839176 A CN 202010839176A CN 112003623 B CN112003623 B CN 112003623B
- Authority
- CN
- China
- Prior art keywords
- tibetan
- text
- algorithm
- dictionary
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007906 compression Methods 0.000 title claims abstract description 83
- 230000006835 compression Effects 0.000 title claims abstract description 82
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 8
- 238000007619 statistical method Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013461 design Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 101150064138 MAP1 gene Proteins 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3059—Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种藏文文本压缩算法,本发明根据对20G藏文网页中的藏文文本进行了统计分析,并由此建立了TiCA算法的映射字典,再根据映射字典,将原来由编码组成的藏文字映射为一个编码的方法来对藏文文本进行压缩。在这个过程中,需要扫描待压缩文本,根据每段藏文的起始位置区间,将过滤后的藏文文本进行压缩,再遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符将每个区间内的藏文字符串分割成藏文字,最后将一个或多个藏文构件组成的藏文字映射为一个编码,由此完成藏文文本的压缩。根据该字典,完成了本发明所提出的藏文文本压缩算法TiCA,提高了TiCA算法的鲁棒性。通过实验证明了无论是在压缩率还是在耗时方面,都取得了优异的效果。
Description
技术领域
本发明及藏文文本的压缩领域,具体地说,涉及一种藏文文本压缩算法。
背景技术
目前,国际国内对文本压缩的研究已经取得较大成果,出现了基于字典编码的LZ系列算法和基于算术编码的压缩算法,由于文本数据必须进行精确重建,只能进行Huffman编码、算术编码、游程编码、LZ编码等无失真压缩算法。
而一般化的文本压缩算法主要有LZ算法和LZW算法等改进的相关算法,这些算法在英文、汉文等常见文字的文本压缩技术已经非常成熟,但是藏文文本压缩在这一工作领域研究较少,根据本发明调查研究发现,目前针对藏文文本压缩的研究,只有边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法和李加才让等人提出的改进LZW算法。边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法,主要利用“标记1”消除音节分隔符和利用藏文字符编码范围全在编码0F00-0FFF之间的特点,在进行压缩编码的时候去掉藏文字符编码的开头“0F”,由此来减少存储空间,然后利用LZ77算法再对其进行压缩,该算法虽然能够对藏文文本起到一定的压缩,但是如果文本中出现了与该算法使用的“标记1”相同的字符,就会导致该算法解码错误,其次,该算法没有充分利用藏文字属于音节字的特点,没有从藏文文字构成的角度出发进行设计文本压缩算法;李加才让等人提出的改进LZW算法根据藏文文本的特点,提出三种藏文文本的数据压缩算法,即分别是以字符为LZW字典的LZWTB1压缩算法、以字丁为LZW字典的LZWTB2压缩算法和以词为LZW字典的LZWTB3压缩算法。这三种算法本质上还是LZW算法,而且LZWTB2算法需要对藏文字丁进行识别处理,LZWTB3算法需要预先进行分词处理,而藏文分词的研究本就是一个基础的课题。无论是边巴旺堆等人还是李加才让等人对藏文文本压缩算法的研究,都没有从藏文字的角度出发进行处理,根据现代藏文文法规则,高定国等人统计出了19380个不同藏文字,并对其构件、长度等进行了整理和分析,发现藏文字是有限的。因此,从藏文字的构造的角度看藏文,一个藏文字最多由七个辅音构件和一个分割符组成,分别是基字、前加字、上加字、下加字、后加字、再后加字、元音、和音节分隔符构成,是具有可压缩性的。
现有的TiCA算法中有很多的符号,如音节点的符号为:“.”,单线的符号为:双线的符号为:/>分章号的符号为;/>而TiCA为一种基于拓扑独立成分分析(TICA)和高斯混合模型(GMM)的视频语义概念检测算法。所以现有的TiCA算法不利于文本压缩。为了解决该问题,本发明从藏文字的角度出发,主要基于藏文字映射的编码方法,实现了一种藏文文本压缩算法。
发明内容
本发明的目的在于为一种藏文文本压缩算法,本发明所提出的藏文文本压缩算法压缩效果更好,耗时更少。
为了达到上述目的,本发明采用的技术方案如下:
一种藏文文本压缩算法,首先,本发明根据对20G藏文网页中的藏文文本进行了统计分析,并由此建立了TiCA算法的映射字典,具体步骤如下:
第一步:对藏文网页进行预处理,根据藏文的Unicode编码区间“0F00-0FFF”,提取藏文网页中的藏文文本,非藏文文本采用藏文音节点“.”进行代替;
第二步:删除集合D中的藏文字符,集合D为: 该集合主要是藏文的数字0至藏文数字9,以及一些藏文特殊符号;
第三步:将连续的藏文音节点“.”替换成单个藏文音节点“.”,单个藏文音节点“.”保留;
第四步:根据藏文句子结尾双线标志(\u0f0d\u0f0d)或者双线标志/>(\u0f0e)或者分章号标志/>或者单线标志/>(\u0f0d)对藏文文本进行分句,然后根据音节点“.”(\u0f0b)将每个句子再划分为字;
第五步:统计每个藏文字的出现的次数以及该藏文字构件的个数,按照二者乘积的结果从大到小对每个藏文字进行排序;乘积相同的根据藏文字构件个数从大到小进行排序;乘积相同并且藏文字构件个数相同的,根据出现次数从大到小进行排序;藏文字构件个数相同并且出现的次数也相同的,则根据该藏文字的字典序从大到小进行排序;
第六步:将字典中的每个藏文字的一个或者多个编码映射为一个编码,具体映射方式为,将字典中前6400个藏文字依次映射到E000-F8FF,即Unicode编码的私用区(Private Use Zone);然后将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间,即E0000-FEE1C区间。
然后,根据TiCA算法建立的映射字典,再将藏文文本进行压缩,具体步骤如下:
第一步:扫描待压缩文本,根据藏文的Unicode编码区间“0F00-0FFF”,确定文本中除集合E之外的每段藏文的起始位置区间,集合E为: 然后再过滤后的藏文文本进行压缩。在集合E中,其中字符指编码为“\u0f0e”的字符,字符“.”指编码为“\u0f0c”的字符;
第二步:遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符“.”(\u0f0b)将每个区间内的藏文字符串分割成藏文字;
第三步:根据TiCA算法映射字典,将一个或多个藏文构件组成的藏文字映射为一个编码。
由此完成本发明藏文文本的整个压缩过程。
本发明与现有技术相比,具有的有益效果如下:
本发明的目的在于一种藏文文本压缩算法,本发明针对每个藏文音节(藏文字)由一个到七个构件构成,并且每个构件有唯一一个Unicode编码的特点,提出了一种藏文文本压缩算法TiCA。本发明首先通过对20G藏文原始文本语料统计分析,建立了一个具有容错性的映射字典,作为TiCA算法的字典;然后,TiCA算法根据映射字典,通过将每个藏文字的一个或者多个编码映射为一个编码的方法对藏文文本进行压缩;最后通过实验对比表明,本发明所提出的藏文文本压缩算法TiCA无论在压缩率还是在耗时方面,都取得了优异的效果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并作详细说明如下。
附图说明
图1为本发明的TiCA算法压缩流程图。
具体实施方式
下面通过实施例对本发明进行具体描述,有必要在此指出的是以下实施例只是用于对本发明进行进一步说明,不能理解为对发明保护范围的限制,改领域的技术人员可以根据上述本发明内容对本发明做出一些非本质的改进和调整。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获得的所有其他实施例,都属于本发明保护的范围。
TiCA藏文文本压缩算法的核心思想是通过映射字典,将一个藏文字中由原来的1个至7个UTF-8编码组成映射为一个编码,由此达到文本压缩的目的。因此,映射字典的设计至关重要。如果仅仅根据现代藏文字典制定藏文文本压缩算法的映射字典,由于人们输入的不规范、拼写错误等原因,将会存在大量的未登录藏文字无法进行压缩和映射。所以这里先给出了一种基于统计分析建立映射字典的方法。
具体方法如下:
TiCA藏文文本压缩算法的核心思想是通过映射字典,将一个藏文字中由原来的1个至7个UTF-8编码组成映射为一个编码,由此达到文本压缩的目的。因此,映射字典的设计至关重要。如果仅仅根据现代藏文字典制定藏文文本压缩算法的映射字典,由于人们输入的不规范、拼写错误等原因,将会存在大量的未登录藏文字无法进行压缩和映射。由此,本发明提出了一种基于统计分析建立映射字典的方法。
首先,本发明根据对20G藏文网页中的藏文文本进行了统计分析,并由此建立了TiCA算法的映射字典。具体方式如下:
第一步:对藏文网页进行预处理,藏文的Unicode编码区间从0F00至0FFF,提取藏文网页中的藏文文本,非藏文文本采用藏文音节点“.”进行代替,非藏文文本指的是@、#、¥或者空格等;
第二步:删除集合D中的藏文字符,集合D为: 该集合主要是藏文的数字0至藏文数字9,以及一些藏文特殊符号。由于每个数字都是一个藏文字,然而数字是无穷尽的,如果保留数字进行藏文字的统计,这将会导致本发明所提出的TiCA算法的映射字典剧增,进而会大大影响该算法的压缩效率;同样的,将藏文的特殊符号删除的原因,也是为了减少映射字典的数量和提高压缩算法的效率。
第三步:由于藏文中有将音节点“.”(\u0f0c)作为藏文字的分隔符,也有将音节点“.”(\u0f0b)作为藏文字的分隔符,所以为了便于后续的统计分析,本步将连续的藏文音节点“.”替换成单个藏文音节点“.”,单个藏文音节点进行保留“.”;
第四步:根据藏文句子结尾双线标志(\u0f0d\u0f0d)或者双线标志/>(\u0f0e)或者分章号标志/>或者单线标志/>(\u0f0d)对藏文文本进行分句,然后根据音节点“.”(\u0f0b)将每个句子再划分为字。由此,得到映射字典中需要进行映射的藏文字,共计132893个藏文字;
第五步:统计每个藏文字的出现的次数以及该藏文字构件的个数,按照二者乘积的结果从大到小对每个藏文字进行排序;乘积相同的根据藏文字构件个数从大到小进行排序;乘积相同并且藏文字构件个数相同的,根据出现次数从大到小进行排序;藏文字构件个数相同并且出现的次数也相同的,则根据该藏文字的字典序从大到小进行排序。由此,得到映射字典中需要进行映射的藏文字的顺序。
第六步:将字典中的每个藏文字的一个或者多个编码映射为一个编码,具体映射方式为,将字典中前6400个藏文字依次映射到E000-F8FF,即Unicode编码的私用区(Private Use Zone);然后将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间,即E0000-FEE1C区间。由此,完成了TiCA算法映射字典的建立。
然后,根据TiCA算法来映射字典,再将每个藏文字的一个或者多个编码映射为一个编码的方法对藏文文本进行压缩,具体的流程如图1所示:
第一步:扫描待压缩文本,根据藏文的Unicode编码区间“0F00-0FFF”,确定文本中除集合E之外的每段藏文的起始位置区间,集合E为: 然后再过滤后的藏文文本进行压缩。在集合E中,其中字符指编码为“\u0f0e”的字符,字符“.”指编码为“\u0f0c”的字符;
第二步:遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符“.”(\u0f0b)将每个区间内的藏文字符串分割成藏文字;
第三步:根据TiCA算法映射字典,将一个或多个藏文构件组成的藏文字映射为一个编码,由此完成藏文文本的压缩。
为了验证TiCA算法的效果,本发明在4个不同大小的藏文文本上分别做了实验,本发明的实验在笔记本电脑上,基于Spyder集成环境,采用Python语言进行实验的,笔记本电脑的配置为:Intel(R)Core(TM)i5-3230M CPU@2.60GHz 2.60Ghz,8.00GB内存,windows1064位操作系统。
由于文本的压缩一般要求都是无损压缩,所以衡量文本压缩效果的好坏主要看压缩率(Compression rate)和耗时。压缩率是指文件压缩后的大小与压缩前的大小之比,压缩率越小说明压缩效果越好;耗时是指完成文件压缩所需要的时间,同样的,所需耗时也是越少越好,由于不同性能的电脑,在耗时方面会有稍微差别,即使同一台电脑,每次实验也会有稍微差别,为了减少耗时误差,本发明的耗时是针对同一个文件压缩测试4次,取平均时间作为最终的耗时。
本发明进行了4次实验测试,即4个实施例,分别将文本的大小设置为:文本1为334KB、文本2为658KB、文本3为2943KB、文本4为137795KB,4次实验测试得到的算法结果如下表1所示:
文本名 | 文本大小(KB) | 压缩后大小(KB) | 压缩率 | 耗时(s) |
文本1 | 334 | 80 | 23.95% | 0.11 |
文本2 | 658 | 155 | 23.56% | 0.14 |
文本3 | 2943 | 708 | 24.06% | 0.38 |
文本4 | 137795 | 32982 | 23.94% | 65.14 |
表1
文本3为一般我们常见文件的大小,根据文本3,我们可以计算出TiCA算法的压缩速度每秒可以达到7.5M;随着文本的增大,TiCA的压缩率会趋于稳定,根据文本4的压缩实验,我们可以计算出TiCA算法的压缩率,TiCA算法的压缩率为23.94%,优于边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法的24.40%;在耗时方面,由于受到实验设备性能的限制,文本过大时耗时会增加,但仍然达到了每秒压缩2M以上,是可以接受的。
下面本发明会将本发明的藏文文本压缩算法与李加才让等人提出的藏文文本压缩算法做对比,对比如下:
文本1的设置为334KB,实验后的对比结果如下表2:
算法 | 文本大小(KB) | 压缩后大小(KB) | 压缩率(%) | 耗时(s) |
LZWTB1 | 334 | 149 | 44.61 | 0.78 |
LZWTB2 | 334 | 151 | 45.20 | 1.09 |
LZWTB3 | 334 | 81 | 24.25 | 3.27 |
TiCA | 334 | 80 | 23.95 | 0.11 |
表2
从表2中可以看出,如果文本的设置为334KB,TiCA算法的压缩率为23.95%,耗时为0.11s,为四种算法种效果最好的。
文本的设置为658KB,实验后的对比结果如下表3:
算法 | 文本大小(KB) | 压缩后大小(KB) | 压缩率(%) | 耗时(s) |
LZWTB1 | 658 | 278 | 42.24 | 0.99 |
LZWTB2 | 658 | 277 | 42.09 | 1.4 |
LZWTB3 | 658 | 162 | 24.62 | 5.58 |
TiCA | 658 | 155 | 23.56 | 0.14 |
表3
从表3中可以看出,如果文本的设置为658KB,TiCA算法的压缩率为23.56%,耗时为0.14s,为四种算法中效果最好的。
文本的设置为2943KB,实验后的对比结果如下表4:
算法 | 文本大小(KB) | 压缩后大小(KB) | 压缩率(%) | 耗时(s) |
LZWTB1 | 2943 | 1186 | 40.29 | 1.24 |
LZWTB2 | 2943 | 1186 | 40.29 | 1.66 |
LZWTB3 | 2943 | 739 | 25.11 | 50.19 |
TiCA | 2943 | 708 | 24.06 | 0.38 |
表4
从表4中可以看出,如果文本的设置为2943KB,TiCA算法的压缩率为24.06%,耗时为0.38s,虽然耗时增加了,但是依然是四种算法中最优的。
本发明的目的在于提供一种藏文文本压缩算法,本发明通过对20G藏文网页资源进行整理统计,建立了一个具有容错性的映射字典,并根据该字典,完成了本发明所提出的藏文文本压缩算法TiCA,提高了TiCA算法的鲁棒性,即控制系统在一定的结构和大小参数摄动下,维持其它某些性能的特性。最后,通过实验证明了无论是在压缩率还是在耗时方面,都取得了优异的效果。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。
Claims (5)
1.一种藏文文本压缩算法,其特征在于:该算法包含如下步骤:
第一步:建立TiCA算法的映射字典,具体的建立步骤如下:
A、对藏文网页进行预处理,藏文的Unicode编码区间从0F00至0FFF,提取藏文网页中的藏文文本,非藏文文本采用藏文音节点进行代替;
B、从Unicode编码区间内删除集合D中的藏文字符,集合D为:
C、将连续的藏文音节点替换成单个藏文音节点,单个藏文音节点保留;
D、根据藏文句子结尾双线标志或者分章号标志或者单线标志对藏文文本进行分句,然后根据音节点将每个句子再划分为字;
E、统计每个藏文字的出现的次数以及该藏文字构件的个数,按照二者乘积的结果从大到小对每个藏文字进行排序;乘积相同的根据藏文字构件个数从大到小进行排序;乘积相同并且藏文字构件个数相同的,根据出现次数从大到小进行排序;藏文字构件个数相同并且出现的次数也相同的,则根据该藏文字的字典序从大到小进行排序;
F、将字典中的每个藏文字的一个或者多个编码映射为一个编码;
第二步:根据映射字典对藏文文本进行压缩,压缩步骤如下:
a、扫描待压缩文本,藏文的Unicode编码区间从0F00到0FFF,确定文本中除集合E之外的每段藏文的起始位置区间,集合E为: 然后再将过滤后的藏文文本进行压缩;
b、遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符将每个区间内的藏文字符串分割成藏文字;
c、根据TiCA算法映射字典,将一个或多个藏文构件组成的藏文字映射为一个编码。
2.根据权利要求1所述的一种藏文文本压缩算法,其特征在于:所述集合D主要是藏文的数字0至藏文数字9,以及一些藏文的特殊符号。
3.根据权利要求1所述的一种藏文文本压缩算法,其特征在于,所述根据第一步F中的映射,包括:将字典中前6400个藏文字依次映射到区间E000-F8FF,和将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间。
4.根据权利要求3所述的一种藏文文本压缩算法,其特征在于:区间E000-F8FF为Unicode编码的私用区间。
5.根据权利要求3所述的一种藏文文本压缩算法,其特征在于:自定义的编码区间为E0000-FEE1C的区间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839176.1A CN112003623B (zh) | 2020-08-19 | 2020-08-19 | 一种藏文文本压缩算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010839176.1A CN112003623B (zh) | 2020-08-19 | 2020-08-19 | 一种藏文文本压缩算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112003623A CN112003623A (zh) | 2020-11-27 |
CN112003623B true CN112003623B (zh) | 2023-11-03 |
Family
ID=73472709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010839176.1A Active CN112003623B (zh) | 2020-08-19 | 2020-08-19 | 一种藏文文本压缩算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112003623B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033188B (zh) * | 2021-03-19 | 2022-12-20 | 华果才让 | 一种基于神经网络的藏文语法纠错方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055593A (zh) * | 2007-06-15 | 2007-10-17 | 中国科学院软件研究所 | 藏文网页及其编码的识别方法 |
CN110032938A (zh) * | 2019-03-12 | 2019-07-19 | 北京汉王数字科技有限公司 | 一种藏文识别方法、装置及电子设备 |
CN111030702A (zh) * | 2019-12-27 | 2020-04-17 | 哈尔滨理工大学 | 一种文本压缩方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8929402B1 (en) * | 2005-09-29 | 2015-01-06 | Silver Peak Systems, Inc. | Systems and methods for compressing packet data by predicting subsequent data |
-
2020
- 2020-08-19 CN CN202010839176.1A patent/CN112003623B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101055593A (zh) * | 2007-06-15 | 2007-10-17 | 中国科学院软件研究所 | 藏文网页及其编码的识别方法 |
CN110032938A (zh) * | 2019-03-12 | 2019-07-19 | 北京汉王数字科技有限公司 | 一种藏文识别方法、装置及电子设备 |
CN111030702A (zh) * | 2019-12-27 | 2020-04-17 | 哈尔滨理工大学 | 一种文本压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112003623A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101350624B (zh) | 一种支持ansi编码的中文文本的压缩方法 | |
CN110377901B (zh) | 一种针对配电线路跳闸填报案例的文本挖掘方法 | |
CN106202172B (zh) | 文本压缩方法及装置 | |
CN103646018A (zh) | 一种基于hash散列表词典结构的中文分词方法 | |
CN112003623B (zh) | 一种藏文文本压缩算法 | |
CN101534124B (zh) | 一种用于短小自然语言的压缩算法 | |
CN113553848A (zh) | 长文本分类方法、系统、电子设备、计算机可读存储介质 | |
CN104467868A (zh) | 中文文本压缩方法 | |
CN111144142A (zh) | 基于深度可分离卷积的汉越神经机器翻译方法 | |
EP4137966A1 (en) | Method and apparatus of extracting table information, electronic device and storage medium | |
CN102103416A (zh) | 一种汉字输入方法和装置 | |
CN106656198A (zh) | 一种基于lz77的编码方法 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
Bannai et al. | Efficient LZ78 factorization of grammar compressed text | |
Díaz-Domínguez et al. | A grammar compressor for collections of reads with applications to the construction of the BWT | |
Barua et al. | Bangla text compression based on modified Lempel-Ziv-Welch algorithm | |
CN102567322B (zh) | 文本压缩方法和装置 | |
CN110059192A (zh) | 基于五笔码的字符级文本分类方法 | |
CN103731154A (zh) | 一种基于语义分析的数据压缩算法 | |
WO2010043117A1 (zh) | 一种数字编码方法及其应用 | |
CN107203509B (zh) | 标题生成方法和装置 | |
CN105653506B (zh) | 一种基于字符编码转换的gpu内文本处理的方法及装置 | |
CN117010368A (zh) | 一种基于字形相似的中文纠错数据增强方法 | |
CN102891730B (zh) | 基于bcd码卫星短报文的编码方法和装置 | |
CN102567294A (zh) | 文本数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |