CN112003623A - 一种藏文文本压缩算法 - Google Patents

一种藏文文本压缩算法 Download PDF

Info

Publication number
CN112003623A
CN112003623A CN202010839176.1A CN202010839176A CN112003623A CN 112003623 A CN112003623 A CN 112003623A CN 202010839176 A CN202010839176 A CN 202010839176A CN 112003623 A CN112003623 A CN 112003623A
Authority
CN
China
Prior art keywords
tibetan
text
algorithm
characters
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010839176.1A
Other languages
English (en)
Other versions
CN112003623B (zh
Inventor
索南尖措
尼玛扎西
仁青诺布
格桑多吉
普布旦增
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tibet University
Original Assignee
Tibet University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tibet University filed Critical Tibet University
Priority to CN202010839176.1A priority Critical patent/CN112003623B/zh
Publication of CN112003623A publication Critical patent/CN112003623A/zh
Application granted granted Critical
Publication of CN112003623B publication Critical patent/CN112003623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3059Digital compression and data reduction techniques where the original information is represented by a subset or similar information, e.g. lossy compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种藏文文本压缩算法,本发明根据对20G藏文网页中的藏文文本进行了统计分析,并由此建立了TiCA算法的映射字典,再根据映射字典,将原来由编码组成的藏文字映射为一个编码的方法来对藏文文本进行压缩。在这个过程中,需要扫描待压缩文本,根据每段藏文的起始位置区间,将过滤后的藏文文本进行压缩,再遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符将每个区间内的藏文字符串分割成藏文字,最后将一个或多个藏文构件组成的藏文字映射为一个编码,由此完成藏文文本的压缩。根据该字典,完成了本发明所提出的藏文文本压缩算法TiCA,提高了TiCA算法的鲁棒性。通过实验证明了无论是在压缩率还是在耗时方面,都取得了优异的效果。

Description

一种藏文文本压缩算法
技术领域
本发明及藏文文本的压缩领域,具体地说,涉及一种藏文文本压缩算法。
背景技术
目前,国际国内对文本压缩的研究已经取得较大成果,出现了基于字典编码的LZ系列算法和基于算术编码的压缩算法,由于文本数据必须进行精确重建,只能进行Huffman编码、算术编码、游程编码、LZ编码等无失真压缩算法。
而一般化的文本压缩算法主要有LZ算法和LZW算法等改进的相关算法,这些算法在英文、汉文等常见文字的文本压缩技术已经非常成熟,但是藏文文本压缩在这一工作领域研究较少,根据本发明调查研究发现,目前针对藏文文本压缩的研究,只有边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法和李加才让等人提出的改进LZW算法。边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法,主要利用“标记1”消除音节分隔符和利用藏文字符编码范围全在编码0F00-0FFF之间的特点,在进行压缩编码的时候去掉藏文字符编码的开头“0F”,由此来减少存储空间,然后利用LZ77算法再对其进行压缩,该算法虽然能够对藏文文本起到一定的压缩,但是如果文本中出现了与该算法使用的“标记1”相同的字符,就会导致该算法解码错误,其次,该算法没有充分利用藏文字属于音节字的特点,没有从藏文文字构成的角度出发进行设计文本压缩算法;李加才让等人提出的改进LZW算法根据藏文文本的特点,提出三种藏文文本的数据压缩算法,即分别是以字符为LZW字典的LZWTB1压缩算法、以字丁为LZW字典的LZWTB2压缩算法和以词为LZW字典的LZWTB3压缩算法。这三种算法本质上还是LZW算法,而且LZWTB2算法需要对藏文字丁进行识别处理,LZWTB3算法需要预先进行分词处理,而藏文分词的研究本就是一个基础的课题。无论是边巴旺堆等人还是李加才让等人对藏文文本压缩算法的研究,都没有从藏文字的角度出发进行处理,根据现代藏文文法规则,高定国等人统计出了19380个不同藏文字,并对其构件、长度等进行了整理和分析,发现藏文字是有限的。因此,从藏文字的构造的角度看藏文,一个藏文字最多由七个辅音构件和一个分割符组成,分别是基字、前加字、上加字、下加字、后加字、再后加字、元音、和音节分隔符构成,是具有可压缩性的。
现有的TiCA算法中有很多的符号,如音节点的符号为:“.”,单线的符号为:
Figure RE-GDA0002718101300000021
双线的符号为:
Figure RE-GDA0002718101300000022
分章号的符号为;
Figure RE-GDA0002718101300000023
而TiCA为一种基于拓扑独立成分分析(TICA)和高斯混合模型(GMM)的视频语义概念检测算法。所以现有的TiCA算法不利于文本压缩。为了解决该问题,本发明从藏文字的角度出发,主要基于藏文字映射的编码方法,实现了一种藏文文本压缩算法。
发明内容
本发明的目的在于为一种藏文文本压缩算法,本发明所提出的藏文文本压缩算法压缩效果更好,耗时更少。
为了达到上述目的,本发明采用的技术方案如下:
一种藏文文本压缩算法,首先,本发明根据对20G藏文网页中的藏文文本进行了统计分析,并由此建立了TiCA算法的映射字典,具体步骤如下:
第一步:对藏文网页进行预处理,根据藏文的Unicode编码区间“0F00-0FFF”,提取藏文网页中的藏文文本,非藏文文本采用藏文音节点“.”进行代替;
第二步:删除集合D中的藏文字符,集合D为:
Figure RE-GDA0002718101300000024
Figure RE-GDA0002718101300000031
该集合主要是藏文的数字0至藏文数字9,以及一些藏文特殊符号;
第三步:将连续的藏文音节点“.”替换成单个藏文音节点“.”,单个藏文音节点“.”保留;
第四步:根据藏文句子结尾双线标志
Figure RE-GDA0002718101300000032
(\u0f0d\u0f0d)或者双线标志
Figure RE-GDA0002718101300000033
(\u0f0e)或者分章号标志
Figure RE-GDA0002718101300000034
或者单线标志
Figure RE-GDA0002718101300000035
(\u0f0d)对藏文文本进行分句,然后根据音节点“.”(\u0f0b)将每个句子再划分为字;
第五步:统计每个藏文字的出现的次数以及该藏文字构件的个数,按照二者乘积的结果从大到小对每个藏文字进行排序;乘积相同的根据藏文字构件个数从大到小进行排序;乘积相同并且藏文字构件个数相同的,根据出现次数从大到小进行排序;藏文字构件个数相同并且出现的次数也相同的,则根据该藏文字的字典序从大到小进行排序;
第六步:将字典中的每个藏文字的一个或者多个编码映射为一个编码,具体映射方式为,将字典中前6400个藏文字依次映射到E000-F8FF,即Unicode 编码的私用区(Private Use Zone);然后将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间,即E0000-FEE1C区间。
然后,根据TiCA算法建立的映射字典,再将藏文文本进行压缩,具体步骤如下:
第一步:扫描待压缩文本,根据藏文的Unicode编码区间“0F00-0FFF”,确定文本中除集合E之外的每段藏文的起始位置区间,集合E为:
Figure RE-GDA0002718101300000036
Figure RE-GDA0002718101300000037
Figure RE-GDA0002718101300000038
然后再过滤后的藏文文本进行压缩。在集合E中,其中字符
Figure RE-GDA0002718101300000039
指编码为“\u0f0e”的字符,字符“.”指编码为“\u0f0c”的字符;
第二步:遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符“.” (\u0f0b)将每个区间内的藏文字符串分割成藏文字;
第三步:根据TiCA算法映射字典,将一个或多个藏文构件组成的藏文字映射为一个编码。
由此完成本发明藏文文本的整个压缩过程。
本发明与现有技术相比,具有的有益效果如下:
本发明的目的在于一种藏文文本压缩算法,本发明针对每个藏文音节(藏文字)由一个到七个构件构成,并且每个构件有唯一一个Unicode编码的特点,提出了一种藏文文本压缩算法TiCA。本发明首先通过对20G藏文原始文本语料统计分析,建立了一个具有容错性的映射字典,作为TiCA算法的字典;然后, TiCA算法根据映射字典,通过将每个藏文字的一个或者多个编码映射为一个编码的方法对藏文文本进行压缩;最后通过实验对比表明,本发明所提出的藏文文本压缩算法TiCA无论在压缩率还是在耗时方面,都取得了优异的效果。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并作详细说明如下。
附图说明
图1为本发明的TiCA算法压缩流程图。
具体实施方式
下面通过实施例对本发明进行具体描述,有必要在此指出的是以下实施例只是用于对本发明进行进一步说明,不能理解为对发明保护范围的限制,改领域的技术人员可以根据上述本发明内容对本发明做出一些非本质的改进和调整。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获得的所有其他实施例,都属于本发明保护的范围。
TiCA藏文文本压缩算法的核心思想是通过映射字典,将一个藏文字中由原来的1个至7个UTF-8编码组成映射为一个编码,由此达到文本压缩的目的。因此,映射字典的设计至关重要。如果仅仅根据现代藏文字典制定藏文文本压缩算法的映射字典,由于人们输入的不规范、拼写错误等原因,将会存在大量的未登录藏文字无法进行压缩和映射。所以这里先给出了一种基于统计分析建立映射字典的方法。
具体方法如下:
TiCA藏文文本压缩算法的核心思想是通过映射字典,将一个藏文字中由原来的1个至7个UTF-8编码组成映射为一个编码,由此达到文本压缩的目的。因此,映射字典的设计至关重要。如果仅仅根据现代藏文字典制定藏文文本压缩算法的映射字典,由于人们输入的不规范、拼写错误等原因,将会存在大量的未登录藏文字无法进行压缩和映射。由此,本发明提出了一种基于统计分析建立映射字典的方法。
首先,本发明根据对20G藏文网页中的藏文文本进行了统计分析,并由此建立了TiCA算法的映射字典。具体方式如下:
第一步:对藏文网页进行预处理,藏文的Unicode编码区间从0F00至0FFF,提取藏文网页中的藏文文本,非藏文文本采用藏文音节点“.”进行代替,非藏文文本指的是@、#、¥或者空格等;
第二步:删除集合D中的藏文字符,集合D为:
Figure RE-GDA0002718101300000051
Figure RE-GDA0002718101300000052
该集合主要是藏文的数字0至藏文数字9,以及一些藏文特殊符号。由于每个数字都是一个藏文字,然而数字是无穷尽的,如果保留数字进行藏文字的统计,这将会导致本发明所提出的TiCA算法的映射字典剧增,进而会大大影响该算法的压缩效率;同样的,将藏文的特殊符号删除的原因,也是为了减少映射字典的数量和提高压缩算法的效率。
第三步:由于藏文中有将音节点“.”(\u0f0c)作为藏文字的分隔符,也有将音节点“.”(\u0f0b)作为藏文字的分隔符,所以为了便于后续的统计分析,本步将连续的藏文音节点“.”替换成单个藏文音节点“.”,单个藏文音节点进行保留“.”;
第四步:根据藏文句子结尾双线标志
Figure RE-GDA0002718101300000061
(\u0f0d\u0f0d)或者双线标志
Figure RE-GDA0002718101300000062
(\u0f0e)或者分章号标志
Figure RE-GDA0002718101300000063
或者单线标志
Figure RE-GDA0002718101300000064
(\u0f0d)对藏文文本进行分句,然后根据音节点“.”(\u0f0b)将每个句子再划分为字。由此,得到映射字典中需要进行映射的藏文字,共计132893个藏文字;
第五步:统计每个藏文字的出现的次数以及该藏文字构件的个数,按照二者乘积的结果从大到小对每个藏文字进行排序;乘积相同的根据藏文字构件个数从大到小进行排序;乘积相同并且藏文字构件个数相同的,根据出现次数从大到小进行排序;藏文字构件个数相同并且出现的次数也相同的,则根据该藏文字的字典序从大到小进行排序。由此,得到映射字典中需要进行映射的藏文字的顺序。
第六步:将字典中的每个藏文字的一个或者多个编码映射为一个编码,具体映射方式为,将字典中前6400个藏文字依次映射到E000-F8FF,即Unicode 编码的私用区(Private Use Zone);然后将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间,即E0000-FEE1C区间。由此,完成了TiCA算法映射字典的建立。
然后,根据TiCA算法来映射字典,再将每个藏文字的一个或者多个编码映射为一个编码的方法对藏文文本进行压缩,具体的流程如图1所示:
第一步:扫描待压缩文本,根据藏文的Unicode编码区间“0F00-0FFF”,确定文本中除集合E之外的每段藏文的起始位置区间,集合E为:
Figure RE-GDA0002718101300000071
Figure RE-GDA0002718101300000072
Figure RE-GDA0002718101300000073
然后再过滤后的藏文文本进行压缩。在集合E中,其中字符
Figure RE-GDA0002718101300000074
指编码为“\u0f0e”的字符,字符“.”指编码为“\u0f0c”的字符;
第二步:遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符“.” (\u0f0b)将每个区间内的藏文字符串分割成藏文字;
第三步:根据TiCA算法映射字典,将一个或多个藏文构件组成的藏文字映射为一个编码,由此完成藏文文本的压缩。
为了验证TiCA算法的效果,本发明在4个不同大小的藏文文本上分别做了实验,本发明的实验在笔记本电脑上,基于Spyder集成环境,采用Python 语言进行实验的,笔记本电脑的配置为:Intel(R)Core(TM)i5-3230M CPU @2.60GHz 2.60Ghz,8.00GB内存,windows1064位操作系统。
由于文本的压缩一般要求都是无损压缩,所以衡量文本压缩效果的好坏主要看压缩率(Compression rate)和耗时。压缩率是指文件压缩后的大小与压缩前的大小之比,压缩率越小说明压缩效果越好;耗时是指完成文件压缩所需要的时间,同样的,所需耗时也是越少越好,由于不同性能的电脑,在耗时方面会有稍微差别,即使同一台电脑,每次实验也会有稍微差别,为了减少耗时误差,本发明的耗时是针对同一个文件压缩测试4次,取平均时间作为最终的耗时。
本发明进行了4次实验测试,即4个实施例,分别将文本的大小设置为:文本1为334KB、文本2为658KB、文本3为2943KB、文本4为137795KB,4 次实验测试得到的算法结果如下表1所示:
文本名 文本大小(KB) 压缩后大小(KB) 压缩率 耗时(s)
文本1 334 80 23.95% 0.11
文本2 658 155 23.56% 0.14
文本3 2943 708 24.06% 0.38
文本4 137795 32982 23.94% 65.14
表1
文本3为一般我们常见文件的大小,根据文本3,我们可以计算出TiCA 算法的压缩速度每秒可以达到7.5M;随着文本的增大,TiCA的压缩率会趋于稳定,根据文本4的压缩实验,我们可以计算出TiCA算法的压缩率,TiCA算法的压缩率为23.94%,优于边巴旺堆等人提出的基于LZ77算法的藏文文本压缩算法的24.40%;在耗时方面,由于受到实验设备性能的限制,文本过大时耗时会增加,但仍然达到了每秒压缩2M以上,是可以接受的。
下面本发明会将本发明的藏文文本压缩算法与李加才让等人提出的藏文文本压缩算法做对比,对比如下:
文本1的设置为334KB,实验后的对比结果如下表2:
算法 文本大小(KB) 压缩后大小(KB) 压缩率(%) 耗时(s)
LZWTB1 334 149 44.61 0.78
LZWTB2 334 151 45.20 1.09
LZWTB3 334 81 24.25 3.27
TiCA 334 80 23.95 0.11
表2
从表2中可以看出,如果文本的设置为334KB,TiCA算法的压缩率为 23.95%,耗时为0.11s,为四种算法种效果最好的。
文本的设置为658KB,实验后的对比结果如下表3:
算法 文本大小(KB) 压缩后大小(KB) 压缩率(%) 耗时(s)
LZWTB1 658 278 42.24 0.99
LZWTB2 658 277 42.09 1.4
LZWTB3 658 162 24.62 5.58
TiCA 658 155 23.56 0.14
表3
从表3中可以看出,如果文本的设置为658KB,TiCA算法的压缩率为 23.56%,耗时为0.14s,为四种算法中效果最好的。
文本的设置为2943KB,实验后的对比结果如下表4:
算法 文本大小(KB) 压缩后大小(KB) 压缩率(%) 耗时(s)
LZWTB1 2943 1186 40.29 1.24
LZWTB2 2943 1186 40.29 1.66
LZWTB3 2943 739 25.11 50.19
TiCA 2943 708 24.06 0.38
表4
从表4中可以看出,如果文本的设置为2943KB,TiCA算法的压缩率为24.06%,耗时为0.38s,虽然耗时增加了,但是依然是四种算法中最优的。
本发明的目的在于提供一种藏文文本压缩算法,本发明通过对20G藏文网页资源进行整理统计,建立了一个具有容错性的映射字典,并根据该字典,完成了本发明所提出的藏文文本压缩算法TiCA,提高了TiCA算法的鲁棒性,即控制系统在一定的结构和大小参数摄动下,维持其它某些性能的特性。最后,通过实验证明了无论是在压缩率还是在耗时方面,都取得了优异的效果。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (5)

1.一种藏文文本压缩算法,其特征在于:该算法包含如下步骤:
第一步:建立TiCA算法的映射字典,具体的建立步骤如下:
A、对藏文网页进行预处理,藏文的Unicode编码区间从0F00至0FFF,提取藏文网页中的藏文文本,非藏文文本采用藏文音节点进行代替;
B、从Unicode编码区间内删除集合D中的藏文字符,集合D为:
Figure FDA0002640790950000011
Figure FDA0002640790950000012
C、将连续的藏文音节点替换成单个藏文音节点,单个藏文音节点保留;
D、根据藏文句子结尾双线标志或者分章号标志或者单线标志对藏文文本进行分句,然后根据音节点将每个句子再划分为字;
E、统计每个藏文字的出现的次数以及该藏文字构件的个数,按照二者乘积的结果从大到小对每个藏文字进行排序;乘积相同的根据藏文字构件个数从大到小进行排序;乘积相同并且藏文字构件个数相同的,根据出现次数从大到小进行排序;藏文字构件个数相同并且出现的次数也相同的,则根据该藏文字的字典序从大到小进行排序;
F、将字典中的每个藏文字的一个或者多个编码映射为一个编码;
第二步:根据映射字典对藏文文本进行压缩,压缩步骤如下:
a、扫描待压缩文本,藏文的Unicode编码区间从0F00到0FFF,确定文本中除集合E之外的每段藏文的起始位置区间,集合E为:
Figure FDA0002640790950000013
Figure FDA0002640790950000014
Figure FDA0002640790950000015
然后再将过滤后的藏文文本进行压缩;
b、遍历第一步筛选出的每个藏文位置区间,通过藏文的音节符将每个区间内的藏文字符串分割成藏文字;
c、根据TiCA算法映射字典,将一个或多个藏文构件组成的藏文字映射为一个编码。
2.根据权利要求1所述的一种藏文文本压缩算法,其特征在于:所述集合D主要是藏文的数字0至藏文数字9,以及一些藏文的特殊符号。
3.根据权利要求1所述的一种藏文文本压缩算法,其特征在于,所述根据第一步F中的映射,包括:将字典中前6400个藏文字依次映射到区间E000-F8FF,和将字典中第6401至第132893个藏文字的编码依次映射到一个自定义的编码区间。
4.根据权利要求3所述的一种藏文文本压缩算法,其特征在于:区间E000-F8FF为Unicode编码的私用区间。
5.根据权利要求3所述的一种藏文文本压缩算法,其特征在于:自定义的编码区间为E0000-FEE1C的区间。
CN202010839176.1A 2020-08-19 2020-08-19 一种藏文文本压缩算法 Active CN112003623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010839176.1A CN112003623B (zh) 2020-08-19 2020-08-19 一种藏文文本压缩算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010839176.1A CN112003623B (zh) 2020-08-19 2020-08-19 一种藏文文本压缩算法

Publications (2)

Publication Number Publication Date
CN112003623A true CN112003623A (zh) 2020-11-27
CN112003623B CN112003623B (zh) 2023-11-03

Family

ID=73472709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010839176.1A Active CN112003623B (zh) 2020-08-19 2020-08-19 一种藏文文本压缩算法

Country Status (1)

Country Link
CN (1) CN112003623B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033188A (zh) * 2021-03-19 2021-06-25 华果才让 一种基于神经网络的藏文语法纠错方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055593A (zh) * 2007-06-15 2007-10-17 中国科学院软件研究所 藏文网页及其编码的识别方法
US20150074291A1 (en) * 2005-09-29 2015-03-12 Silver Peak Systems, Inc. Systems and methods for compressing packet data by predicting subsequent data
CN110032938A (zh) * 2019-03-12 2019-07-19 北京汉王数字科技有限公司 一种藏文识别方法、装置及电子设备
CN111030702A (zh) * 2019-12-27 2020-04-17 哈尔滨理工大学 一种文本压缩方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150074291A1 (en) * 2005-09-29 2015-03-12 Silver Peak Systems, Inc. Systems and methods for compressing packet data by predicting subsequent data
CN101055593A (zh) * 2007-06-15 2007-10-17 中国科学院软件研究所 藏文网页及其编码的识别方法
CN110032938A (zh) * 2019-03-12 2019-07-19 北京汉王数字科技有限公司 一种藏文识别方法、装置及电子设备
CN111030702A (zh) * 2019-12-27 2020-04-17 哈尔滨理工大学 一种文本压缩方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033188A (zh) * 2021-03-19 2021-06-25 华果才让 一种基于神经网络的藏文语法纠错方法
CN113033188B (zh) * 2021-03-19 2022-12-20 华果才让 一种基于神经网络的藏文语法纠错方法

Also Published As

Publication number Publication date
CN112003623B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN112597753A (zh) 文本纠错处理方法、装置、电子设备和存储介质
CN110377901B (zh) 一种针对配电线路跳闸填报案例的文本挖掘方法
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN108388561B (zh) 神经网络机器翻译方法和装置
CN1340804A (zh) 自动新词提取方法和系统
CN110163181B (zh) 手语识别方法及装置
CN103646018A (zh) 一种基于hash散列表词典结构的中文分词方法
CN111581374A (zh) 文本的摘要获取方法、装置及电子设备
CN113553848B (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN113032541B (zh) 一种基于bert并融合句群检索的答案抽取方法
CN110134934A (zh) 文本情感分析方法和装置
CN113221542A (zh) 一种基于多粒度融合与Bert筛选的中文文本自动校对方法
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN112003623A (zh) 一种藏文文本压缩算法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN110059192A (zh) 基于五笔码的字符级文本分类方法
CN114528397A (zh) 对抗文本攻击防御方法、系统、介质、计算机设备及终端
CN113254429A (zh) 一种用于远程监督关系抽取的基于bert和mlm的降噪方法
WO2010043117A1 (zh) 一种数字编码方法及其应用
CN112364647A (zh) 一种基于余弦相似度算法的查重方法
Díaz-Domínguez et al. Efficient construction of the extended BWT from grammar-compressed DNA sequencing reads
Awajan et al. Hybrid technique for Arabic text compression
CN111709228A (zh) 一种字词重复错误的自动识别方法
CN116822495B (zh) 基于对比学习的汉-老、泰平行句对抽取方法及装置
Mokter et al. An Efficient Technique for Representation and Compression of Bengali Text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant