CN106021236A

CN106021236A - 一种藏文字自动校对方法及装置

Info

Publication number: CN106021236A
Application number: CN201610389746.5A
Authority: CN
Inventors: 才智杰; 才让卓玛
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-06-05
Filing date: 2016-06-05
Publication date: 2016-10-12

Abstract

一种藏文字自动校对方法及装置本发明涉及藏文信息处理技术领域，特别涉及一种藏文字自动校对方法及装置。公开一种藏文字自动校对的方法及装置，以实现计算设备自动拼写检查藏文字错误的目的，并通过纠错候选项选择算法，计算出与该错误字相近的纠错候选字以供用户选择。具体包括：(1)藏文字的数字化表示；(2)藏文构件添加原则的数字化表示；(3)藏文字的拼写检查；(4)纠错候选字选择。该发明可应用于藏文文本的自动校对，在藏语语料库建设、出版业等具有重要的应用价值。

Description

一种藏文字自动校对方法及装置

技术领域

本发明涉及藏文信息处理技术领域，特别涉及一种藏文字自动校对方法及装置。

背景技术

从60年代开始，随着计算机排版印刷业的兴起，陆续出现西文自动校对软件，到1991年，已有15种西文自动校对的商品化系统问世，广泛应用于写作、教育、出版等行业。1980年开始，香港、台湾、新加坡、日本、韩国也陆续投入了大量人力、物力进行东方语言文字的自动查错与纠错研究。目前，国内微软亚洲研究院、金山公司等单位开展了汉文文本自动校对理论和技术的研究，取得了较好的成果，且有部分成果已经商品化，为办公自动化带来了便利。西文和中文校对的主要思想是：首先建立校对词库，当用户输入单词后与校对词库进行比较，若输入的单词不在词库中时标记出该词，并分析错误的原因，找出可能正确的单词供用户选择。

藏文是藏语的文字系统，自公元7世纪创制以来，经过三次较大规模的厘定，日臻完善，制定了详实的文法。近年来在国家的大力支持和学者们的共同努力下藏文信息处理技术得到了快速发展，已向海量信息处理方向发展。特别是随着统计技术和深度学习技术的引入，藏文信息处理也跨入了大数据时代，信息的准确度尤为重要，因此藏文自动校对技术研究具有重要的理论意义和广泛的应用前景。

由于藏文字是由1-7个基本构件横向和纵向拼接而成的一种特殊表音拼音文字，不但具有横向拼写，还存在纵向拼写，所以以上语言文字自动校对方法不能适用于藏文自动校对。

藏文自动校对包括字校对和词校对。由于藏文字由前加字、上加字、基字、下加字、元音、后加字和再后加字等构件拼接而成，因而在文本中经常出现很多拼写错误。为此，本发明提供一种藏文字自动校对的方法及装置，以实现用计算设备自动拼写检查藏文字的目的，并通过纠错候选项选择算法，计算出与该错误字相近的纠错候选字以供用户选择。本发明的方法及装置可应用于藏文文本的自动校对，在藏语语料库建设、出版业等具有重要的应用价值。

发明内容

为实现上述发明目的，基于本发明实施例，提供一种藏文字自动校对方法，所述方法包括：

1.一种藏文字自动校对方法

该方法给出了藏文字自动校对的模型，包括文本预处理、拼写检查和纠错候选项选择方法。

2.藏文字的一种数字化表示方法

一个藏文字由1-7个构件组成，按传统拼读顺序将前加字、上加字、基字、下加字、元音、后加字和再后加字等7个构件依次用其序号a₁、a₂、a₃、a₄、a₅、a₆和a₇表示，则藏文字可表示为(a₁,a₂,a₃,a₄,a₅,a₆,a₇)的数字形式。

3.藏文构件添加原则的一种数字化表示方法

通过归纳、分析藏文构件添加原则，给出了藏文构件添加原则的数字化表示方法。

4.一种藏文字拼写检查方法

通过方法2将藏文字表示为数字化形式，然后判断该数字化形式是否满足方法3中的藏文构件添加原则的数字化表示形式，若满足则检查通过，否则未通过检查。

5.纠错候选项选择方法

对未通过检查的藏文字用纠错候选项选择算法提供与该字相近的纠错候选字以供用户选择。

为实现上述发明目的，基于本发明实施例，提供一种藏文字自动校对装置，所述装置包括：

藏文字的数字化形式表示模块，用于将读取的藏文字表示为计算设备易于操作和运算的数字化形式。

藏文字拼写检查模块，通过判断待检查藏文字的数字化形式与构件添加原则的数字化形式的一致性，检查该字是否正确。

纠错候选项选择模块，通过纠错候选项选择算法，计算出与该错误字相近的纠错候选字以供用户选择。

附图说明

图1是藏文字结构及数字化表示图。

图2是藏文字自动校对模型图。

图3是藏文字的数字化表示流程图。

图4是藏文字拼写检查流程图。

图5是藏文字纠错候选项选择流程图。

具体实施方式

本发明提供藏文字的数字化表示方法和藏文构件添加原则的数字化表示方法，对待检查的藏文字先表示为数字化形式，然后验证待检查藏文字的数字化形式与藏文构件添加原则的数字化形式的一致性，完成藏文字的拼写检查，对未通过检查的错误字计算出相近的纠错候选项以供用户选择。为了更充分理解本发明的技术内容，下面参照附图结合具体实施例对本发明的技术方案做进一步介绍和说明，但不局限于此。

参考附图1，藏文字由30个辅音字母和4个元音字母组成，30个辅音字母可以做基字，其中的10个可以做后加字，后加字中的5个又可以做前加字，2个可以做再后加字。藏文字结构上由基字、前加字、上加字、下加字、后加字、再后加字及元音组成，一个藏文字有且仅有一个基字，其它部分可能存在一个也可能不存在。构字时前加字、基字、后加字与再后加字按一定的约束规则横向拼写，上加字、基字、下加字和元音在基字所在的竖直方向上按约束规则纵向拼写，组成字的各个字母称作构件。

实施例一

本发明提出一种藏文字自动校对的方法及装置。参考附图2，藏文字自动校对的方法及装置包括预处理模块，拼写检查模块和纠错候选字选择模块。预处理模块的功能是将藏文文本进行断句和识字处理，并将字规范化为参考附图1(A)所示的形式。断句以藏文单垂符为边界，字间以音节分隔符“·”为边界，藏文字规范化部分主要采用添加删除法识别紧缩词。拼写检查模块先对规范藏文字进行构件分解，并参考附图1(B)将藏文字表示为数字化形式，然后通过验证藏文构件添加规则约束表1-7进行拼写检查。如果检查不正确，则选择纠错候选字以供用户选择。

实施例二

设A＝{(a₁,a₂,a₃,a₄,a₅,a₆,a₇)|0≤a₁≤5，0≤a₂≤3，0＜a₃≤30，0≤a₄≤4，0≤a₅≤4，0≤a₆≤10，0≤a₇≤2}。参考附图3，本实施例中所述藏文字的数字化表示方法包括藏文字构件分解，构件分量值确定以及藏文字数字化表示等。具体实施过程为：先分解藏文字的构件，然后根据每种构件类型中该构件的序号确定它对应的分量值a_i(i＝1,2,3,4,5,6,7)，最后根据所得分量值a_i将藏文字表示为数字化a＝(a₁,a₂,a₃,a₄,a₅,a₆,a₇)形式。

实施例三

由藏文构字原则，建立藏文构件添加原则的数字化表示，示例见表1-8。

表1 再后加字添加规则约束表

表1是再后加字的添加约束规则表，当a₆取0,3,7,10之一时a₇只能取0，当a₆取4,8,9之一时a₇只能取0或1，当a₆取1,2,5,6之一时a₇只能取0或2。a₆＝0、a₇＝0表示该藏文字无后加字、无再后加字，a₆＝3或7或10、a₇＝0表示该藏文字的后加字为或或无再后加字，a₆＝4或8或9、a₇＝0表示该藏文字的后加字为或或无再后加字，a₆＝4或8或9、a₇＝1表示该藏文字的后加字为或或再后加字为a₆＝1或2或5或6、a₇＝0表示该藏文字的后加字为或或或无再后加字，a₆＝1或2或5或6、a₇＝2表示该藏文字的后加字为或或或再后加字为表2-7的含义类同。

表2 a₁＝0时上加字、基字和下加字的添加规则约束表

表3 a₁＝1时上加字、基字和下加字的添加规则约束表

表4 a₁＝2时上加字、基字和下加字的添加规则约束表

表5 a₁＝3时上加字、基字和下加字的添加规则约束表

表6 a₁＝4时上加字、基字和下加字的添加规则约束表

表7 a₁＝5时上加字、基字和下加字的添加规则约束表

表8 特殊藏文字表

表8列出了一些特殊藏文字，其中双音节型原本是两个藏文字，但现在的藏文中将其看成一个完整的藏文字使用，特殊叠字是一种独立地应用于特殊语境下的藏文字，音译字母是为了书写音译字而引入的特殊字母，将其看成一个整体，不能添加前加字、上加字、下加字和再后加字，但能添加元音和后加字。特殊藏文字不能用实施例二的方法表示为数字化形式，为了便于处理这些特殊藏文字，建立特殊藏文字表。

实施例四

参考附图4，本发明实施例提供一种藏文字拼写检查方法，实施例可以对藏文文本进行篇章拼写检查，该方法包括如下步骤：

步骤401：读取文本内容到Text中，从Text识别出一个藏文字并规范化后存入s，将规范藏文字s构件分解到数组T，最后通过T将s表示为数字化形式a＝(a₁,a₂,a₃,a₄,a₅,a₆,a₇)。

步骤402:判断a是否属于实施例一所述的集合A，若则执行步骤403，否则执行步骤405。

步骤403：如果s是P1型或P2型或P3与元音、后加字的组合，则s为合法藏文字，转到步骤401；否则转到404。

步骤404：如果a₃＜1or a₃＞30，那么a对应的是非藏文字符，不做拼写检查，否则将a中a_i(i＝1,2,3,4,5,6,7)做以下调整。当a₁<0or a₁>5时，则a₁←1；当a₂<0or a₂>3时，则a₂←1；当a₄<0or a₄>3时，则a₄←1；当a₆<0or a₆>10时，则a₆←2；当a₇<0or a₇>2时，则a₇←2。转到实施例五的步骤501。

步骤405：若a₆,a₇不满足再后加字添加规则约束表1，则转到实施例五的步骤501；否则，如果满足下列条件之一，则转到步骤401，如果下列所有条件都不满足，则转到实施例五的步骤501。

条件：

(1)当a₁＝0时，a₂,a₃,a₄满足规则约束表2；

(2)当a₁＝1时，a₂,a₃,a₄满足规则约束表3；

(3)当a₁＝2时，a₂,a₃,a₄满足规则约束表4；

(4)当a₁＝3时，a₂,a₃,a₄满足规则约束表5；

(5)当a₁＝4时，a₂,a₃,a₄满足规则约束表6；

(6)当a₁＝5时，a₂,a₃,a₄满足规则约束表7。

实施例五

参考附图5，本发明实施例提供一种藏文字纠错候选项选择方法，实施例可以对每一个a∈A的错误字选择与该字相近的正确候选字以供用户选择，该方法包括如下步骤：

步骤501：若a₇＝0，则转到步骤502，否则转到步骤507；

步骤502：当a₄＝0，a₂＝0，a₆＝0，a₅＝0时，则a₁←0，此时纠错候选字的数字化形式为(0,0,a₃,0,0,0,0)，转到实施例4的步骤401；当a₄＝0，a₂＝0，a₆＝0，a₅≠0或a₄＝0，a₂＝0，a₆≠0时，则选择所有使(a₁,0,a₃,0)∈T_2-7的a₁，此时纠错候选字的数字化形式为(a₁,0,a₃,0,a₅,a₆,0)，转到实施例4的步骤401；当a₄＝0，a₂≠0时，转到步骤503；当a₄≠0，a₂＝0时，转到步骤505；当a₄≠0，a₂≠0时，转到步骤506；

步骤503：若则选择所有使(0,a₂,a₃,0)∈T_2-7的a₂，转到步骤504，否则转到步骤504；

步骤504：若(a₁,a₂,a₃,0)∈T_2-7，则纠错候选字为(a₁,a₂,a₃,a4,a₅,a₆,a₇)，转到实施例4的步骤401；否则选择所有使(a₁,a₂,a₃,a₄)∈T_2-7的a₁，此时纠错候选字的数字化形式为(a₁,0,a₃,0,a₅,a₆,0)，转到实施例4的步骤401；

步骤505：若(0,0,a₃,a₄)∈T_2-7，选择所有使(0,a₂,a₃,a₄)∈T_2-7的a₂、a₄，转到步骤504；否则选择所有使(0,0,a₃,a₄)∈T_2-7的a₄，转到步骤504；

步骤506：若(0,a₂,a₃,a₄)∈T_2-7，则转到步骤504，否则选择所有使(0,a₂,a₃,a₄)∈T_2-7的a₂、a₄，转到步骤504；

步骤507：若a₇＝1or a₇＝2，则转到步骤508，否则转到步骤509；

步骤508：若(a₆,a₇)∈T₈，则转到步骤502，选择所有使(a₆,a₇)∈T₈的a₆，转到步骤502；

步骤509：a₇←2，选择所有使(a₆,a₇)∈T₈的a₆，转到步骤502。

Claims

1.一种藏文字自动校对方法，其特征在于：

对待检查的藏文字先表示为数字化形式，然后验证待检查藏文字的数字化形式与藏文构件添加原则的数字化形式的一致性，完成藏文字的拼写检查，对未通过检查的错误字计算出相近的纠错候选项以供用户选择。

2.一种藏文字的数字化表示方法，其特征在于：

对藏文字进行构件分解，根据每种构件类型中该构件的序号确定它对应的分量值a_i（i=1,2,3,4,5,6,7），最后根据所得分量值a_i将藏文字表示为数字化a=(a₁,a₂,a₃,a₄,a₅,a₆,a₇)形式。

3.一种藏文构件添加原则的数字化表示方法，其特征在于：

通过归纳、分析藏文构件添加原则，给出了藏文构件添加原则的数字化表示方法，该方法包括再后加字添加规则约束表，前加字、上加字、基字和下加字的添加规则约束表。

4.一种藏文字拼写检查方法，其特征在于：

对数字化形式a=(a₁,a₂,a₃,a₄,a₅,a₆,a₇) 而言，若a∉A，则进一步判断是否为特殊藏文字，如果是特殊藏文字，那么a表示正确藏文字，如果不是特殊藏文字且基字不合法，说明a表示非藏文字符，不做拼写检查，如果不是特殊藏文字而基字合法，那么对其它不合法的构件进行调整，使aA；

若aA，如果a₆,a₇满足构件添加原则约束表之一，说明a表示的字正确，如果a₆,a₇不满足所有构件添加原则约束表，那么a表示错误字。

5.一种藏文字纠错候选项选择方法，其特征在于：

对每一个aA的错误字用纠错候选项选择算法，计算出与该错误字相近的正确候选字以供用户选择。

6.藏文字的数字化形式表示装置，其特征在于：

用于将读取的藏文字表示为计算设备易于操作和运算的数字化形式。

7.藏文字拼写检查装置，其特征在于：

通过判断待检查藏文字的数字化形式与构件添加原则的数字化形式的一致性，检查该字是否正确。

8.纠错候选项选择装置，其特征在于：

通过纠错候选项选择算法，计算出与该错误字相近的纠错候选字以供用户选择。