CN104331400B

CN104331400B - 一种蒙古文编码转换方法和装置

Info

Publication number: CN104331400B
Application number: CN201410637561.2A
Authority: CN
Inventors: 赵小兵; 田寄远; 包乌格德勒; 张阳
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2017-11-03
Anticipated expiration: 2034-11-05
Also published as: CN104331400A

Abstract

本发明涉及一种蒙古文编码转换方法和装置，所述方法包括:提取当前行的待处理行数据；对待处理行数据进行分词数据处理，得到蒙古文单词序列，依次处理序列中的蒙古文单词，得到每个蒙古文单词包括的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据；其中，位置属性信息至少包括：标识所述字母在该蒙古文单词中的位置的信息；在预设的位置信息查找规则表中，依次匹配每一字母的字符信息、位置属性信息与规则表中替换字符的字符信息、位置属性信息，确定一个或多个命中规则；依次根据所述命中规则，对当前蒙古文单词中的字母进行匹配，确定最优命中规则；将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。

Description

一种蒙古文编码转换方法和装置

技术领域

本发明涉及数字信息处理技术领域，尤其涉及一种蒙古文编码转换方法和装置。

背景技术

蒙古语言文字是中国蒙古族自治地方的通用文字之一，是一个在全世界有数千万人使用的语言。近几年在国家各部门和地方政府的大力支持下，蒙古文信息处理事业得到了长足的发展，产生了多种蒙古文文字处理系统、排版系统、办公软件和其它应用软件。但是由于蒙古文国际标准编码制定和出台较晚，很多蒙古文应用系统和软件使用了不同的编码方案。目前，多数蒙古文网站和资料依然采用非国际标准编码方案进行编码和存储。随着蒙古文信息处理技术的快速发展，人们逐渐意识到了蒙古文编码差异所造成的问题。首先由于不同编码方案之间互不兼容、互不识别，技术上的重复开发问题严重，造成了人力、物力及财力上的极大浪费；其次采用非国际标准编码方案建立的各种文件和资源越来越多，由于编码方案不同，从而不能很好地共享和利用这些资源。因此将非国际标准编码蒙古文转换为统一的国际标准编码已成为当前蒙古文信息处理中亟待解决的问题。

目前业内提出的编码转换的解决方法是基于规则、词典和统计相结合的方法，采用以最小字素编码为中介的编码转换方法，把智能编码、方正编码、蒙科立编码和赛音编码等编码先转换为最小字素编码，再由最小字素编码转换为国际标准编码。比如内蒙古大学计算机学院巩政等人提出的形码->最小字素编码->智能编码->国际标准编码的转换方法，内蒙古大学计算机学院张瑾等人提出的形码->最小字素编码->国际标准编码的转换方法等。采用最小字素编码作为中介的编码转换方法，虽然转换成功率比较高，但是运行速度慢，数据处理量大，无法满足快速编码转换的要求。

发明内容

本发明的目的是提供一种能够克服上述缺陷的蒙古文编码转换方法和装置。

在第一方面，本发明提供了蒙古文编码转换方法，所述方法包括：

提取当前行的待处理行数据；

对所述待处理行数据进行分词数据处理，得到蒙古文单词序列；

依次处理所述蒙古文单词序列中的蒙古文单词，得到每个所述蒙古文单词中包括的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据；其中，所述位置属性信息至少包括：标识所述字母在当前所述蒙古文单词中的位置的信息；

在预设的位置信息查找规则表中，依次匹配每一所述字母的字符信息、位置属性信息与所述规则表中替换字符的字符信息、位置属性信息，确定一个或多个命中规则；所述命中规则包括若干期望条件，所述期望条件包括语法约束和相邻位置字母约束；

依次根据所述命中规则，对当前蒙古文单词中的字母进行匹配，确定最优命中规则；

将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。

优选的，当所述规则表中替换字符的位置属性信息没有限定时，所述字母的位置属性信息与所述规则表中替换字符的位置属性信息相匹配。

优选的，当由所述待处理行数据中不包括蒙古文单词，或当前行中全部蒙古文单词的字母转换完毕时，所述方法还包括：

提取所述当前行的下一行的待处理行数据。

优选的，所述字母的字符信息包括：词性、阴阳性、前后字符元辅音、音节数中的一种或多种。

优选的，所述位置属性信息包括：独立体、词首、词中、词尾。

第二方面，本发明实施例提供了一种蒙古文编码转换装置，包括：

行数据提取单元，用于提取当前行的待处理行数据；

处理单元，用于对所述待处理行数据进行分词数据处理，得到蒙古文单词序列；依次处理所述蒙古文单词序列中的蒙古文单词，得到每个所述蒙古文单词中包括的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据；其中，所述位置属性信息至少包括：标识所述字母在当前所述蒙古文单词中的位置的信息；

匹配单元，用于在预设的位置信息查找规则表中，依次匹配每一所述字母的字符信息、位置属性信息与所述规则表中替换字符的字符信息、位置属性信息，确定一个或多个命中规则；所述命中规则包括若干期望条件，所述期望条件包括语法约束和相邻位置字母约束；

确定单元，依次根据所述命中规则，对当前蒙古文单词中的字母进行匹配，确定最优命中规则；

执行单元，将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。

优选的，当由所述待处理行数据中不包括蒙古文单词，或当前行中全部蒙古文单词的字母转换完毕时，所述行数据提取单元还用于，提取所述当前行的下一行的待处理行数据。

在本发明提供的一种蒙古文编码转换方法，运行速度快，占用系统内存小，支持单文件转换和目录转换，适用于蒙古文的拉丁编码、方正编码、蒙科立编码、明安图编码、赛音编码以及国际标准编码之间的转换。

附图说明

图1为本发明实施例提供的一种蒙古文编码转换方法流程图；

图2为本发明实施例提供的一种蒙科立编码到国际标准编码的转码处理流程图；

图3为本发明实施例提供的一种国际标准编码到蒙科立编码的转码处理流程图；

图4为本发明实施例提供的蒙古文编码转换装置的示意图之一；

图5为本发明实施例提供的蒙古文编码转换装置的示意图之二。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

为更好地理解本发明的技术方案，首先对蒙古文的编码方案进行简要介绍。

现有的蒙古文编码方案可分为名义字符编码方案、准名义字符编码方案和显现字符编码方案。名义字符编码方案就是蒙古文编码国际标准的编码方式，只对名义字符进行编码。该编码必须通过OpenType字体技术的支持才能实现蒙古文所有字符的变形显现。准名义字符编码方案是跟蒙古文编码国际标准的编码方式相近的编码方式，以蒙古文编码国际标准的字母序列对显现字符进行编码，显现字符占码位的编码方式。准名义字符区分形同音不同字母，一种显现形式有多种编码。在操作系统中不用OpenType字体技术也能正确显现蒙古文。包括蒙科立编码、明安图编码和拉丁编码。显现字符编码方案是对蒙古文字母的所有显现形式进行编码的方式，不依据蒙古文编码国际标准的字母序列进行排列，显现字符不区分形同音不同，一种显现形式只有一种编码。在操作系统中不用OpenType字体技术也能正确显现蒙古文。包括方正编码和赛音编码。

在国际标准编码中将蒙古文编码分为“名义字符”和“变形显现字符”两个部分，而只对其中的“名义字符”予以编码，对“变形显现形式”不予编码。所谓“名义字符”就是在每一个字母的各个变体中最具代表性的一个形式，以它来代表该字母，对它进行编码。它可用于蒙古文的“书面形式以及附加符号的传输、交换、处理、存储、输八及显现”。“变形显现字符”就是蒙古文的每一个字母的多个变体中，除去做“名义字符”的其余变体，是用来当作显现，输出。经过六年多的研究和讨论，2000年ISO/IEC发布了蒙古文编码国际标准。在该标准中，把从U+l800开始的一个“平面”作为蒙古文字符集编码码位。蒙古文字符实际占有码位区间是U+l800—U+l8AF。蒙古文国际标准字符集包括传统蒙古文、托式文、锡伯文、满文以及蒙、托、满三种文字用于转写藏文和梵文的阿礼嘎礼字符、标点符号、数字和控制符。蒙古文国际标准编码基本字符集如下表1所示。

表1

除了上述的蒙古文编码国际标准的编码方式之外，目前还常用以下几种非国际标准编码。

1.方正编码

1990年，北京大学新技术公司(北大方正)在内蒙古大学蒙古语言研究所1986年研制的蒙古文多种文字编码的基础上研制的编码，此编码的字符集包括蒙古文部分有82个码位。

2.蒙科立编码

内蒙古蒙科立软件有限公司研制的编码，有236个码位，是形码表示的字符集，保留了语音信息，不含合体字，当不同的蒙古文名义字符对应的变形显现字符写法相同时对该显现字符定义了不同的码位，出现形状相同但编码不同的字符。

3.赛音编码

新疆巴音郭楞蒙古自治州蒙古高级中学地理老师赛音毕力格研制的编码，有80个码位。字素编码方式，每一个蒙古文字符的形状都不相同，不同发音的蒙古文名义字符可能对应同一个显现字符赛音蒙古文字符集中的每一个蒙古文字符的形状都不相同，这样不同发音的蒙古文名义字符可能对应同一个显现字符。

4.明安图编码

内蒙古明安途互联网技术开发有限公司开发制作的编码，其显现字符的编码排列是独立形式、词首形式、词尾形式、词中形式，区分形同音不同字母，采用显现形式有多种编码，共249个码位。

5.拉丁编码

蒙古文拉丁转写方式是用拉丁转写蒙古文字母的方式，其编码方式也接近于名义字符编码方式。这里所说的拉丁编码是指内蒙古大学蒙古学学院蒙古语言研究所制定的蒙古文语料库专用拉丁转写方案，跟名义字符有简单的映射关系。

本发明提供的方法，能够适用于上述提及的蒙古文的拉丁编码、方正编码、蒙科立编码、明安图编码、赛音编码以及国际标准编码之间的转换。

图1为本发明实施例提供的蒙古文编码转换方法流程图。如图1所示，所述方法包括如下步骤：

步骤110，提取当前行的待处理行数据；

具体的，源文件可以是网页、文档等各种形式，编码转换时，对源文件采用行处理的方式，这样能够使用较少的系统内存，提高编码转换效率。

步骤120，对所述待处理行数据进行分词数据处理，得到蒙古文单词序列；

具体的，假设源文件中的蒙古文编码是采用A编码方式进行的，需要转换成B编码方式，首先需要对于提取出的行数据中的采用A编码方式的蒙古文和非蒙文进行识别。

如果在提取的当前行中没有识别出A编码方式的蒙古文，则继续提取当前行的下一行的待处理行数据，直至源文件中所有待处理行都被处理完毕。

此外，对于识别出的非蒙文，可以直接采用系统默认代码页转换为需要的编码方式。

步骤130，依次处理所述蒙古文单词序列中的蒙古文单词，得到每个蒙古文单词中包括的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据；

具体的，所述位置属性信息至少包括：标识所述字母在当前蒙古文单词中的位置的信息；进一步具体的可以包括该字母是独立体，或者在单词中的位置是词首、词中还是词尾。

所述字母的字符信息包括：词性、阴阳性、前后字符元辅音、音节数中的一种或多种等等。

步骤140，在预设的位置信息查找规则表中，依次匹配每一所述字母的字符信息、位置属性信息与所述规则表中替换字符的字符信息、位置属性信息，确定一个或多个命中规则；

具体的，规则表为预先设定的，其中包括多个规则，每个规则包括若干的期望条件。期望条件包括语法约束和相邻位置字母约束，比如词性、阴阳性、前后字符元辅音、音节数等等，也包括了位置属性信息，比如是独立体，或者在单词中的位置等等。

通过匹配得到这些规则中的命中规则，命中规则可能是一个，也可能不止一个。

例如，当字母的字符信息与规则表中替换字符的字符信息相匹配，并且字母的位置属性信息与规则表中替换字符的位置属性信息相匹配时，可以认为规则表中相应的规则是命中规则。此外，规则表中有一些替换字符的位置属性信息为空，也就是没有限定，则表示这条规则不收位置约束，因此当规则中的字符信息匹配成功时，就认为是命中规则。

步骤150，依次根据所述命中规则，对当前蒙古文单词中的字母进行匹配，确定最优命中规则。

具体的，依次带着各命中规则的这些期望条件回到当前词中匹配，最终确定最合适的一条规则，为最优命中规则。

步骤160，将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。

具体的，

根据命中规则，将字母的编码数据(A编码方式的)转换为规则表中最优命中规则中的替换字符的编码数据(B编码方式的)，实现编码转换。

优选的，对于位置属性信息非空的编码转换，还需根据位置属性信息的含义，在转换时加入控制字符。

在一个具体的例子中，加入控制字符的情况可以如表2所示。

字母位置属性信息	规则位置属性信息	处理方法
			独立体	词首	后加窄宽度无间断空格
独立体	词中	前、后各加窄宽无间断空格
			独立体	词尾	前加窄宽度无间断空格
词首	词中	前加窄宽度无间断空格
			词中	词尾	后加窄宽度无间断空格
词中	词首	前加窄宽度无间断空格
			词尾	词中	后s加窄宽度无间断空格

表2

对于源文件中所有识别出的A编码方式的蒙古文都按照上述方法进行编码转换。

在本发明实施例提供的蒙古文编码转换方法，运行速度快，占用系统内存小，支持单文件转换和目录转换，适用于各种编码的蒙古文，如拉丁编码、方正编码、蒙科立编码、明安图编码、赛音编码以及国际标准编码之间的转换。

下面分别以蒙科立编码到国际标准编码的一个具体的转码处理过程，以及国际标准编码到蒙科立编码的一个具体的转码处理过程为例，对本发明提供的方法进行进一步的详细说明。

图2为本发明实施例提供的一种蒙科立编码到国际标准编码的转换处理流程图，如图所示，包括：

步骤201，提取当前行的一个蒙文串；

具体的，最初提取的蒙文串为当前行的第一个蒙文串。

步骤202，确定在所述当前蒙文串之前是否包括非蒙文串；

如果包括执行步骤203，否则跳过直接执行步骤205。

步骤203，将非蒙文串转换为国际标准编码(Unicode)；

步骤204，将转换为Unicode的非蒙文串存入目标串中；

步骤205，将蒙文串划分为字符与标点符号集合；

步骤206，获取当前处理的字符的位置属性信息；

步骤207，在预设的规则表中，依次匹配该字符的字符信息、位置属性信息与规则表中各规则的替换字符的字符信息、位置属性信息，确定一个或多个命中规则；

步骤208，根据命中规则进行匹配，确定最优命中规则，并将该字符的编码数据转换为所述规则表中最优命中规则的替换字符的编码数据，并记录在目标串中；

步骤209，确定是否处理完当前集合中的所有字符与标点符号；

如果没有，则执行步骤210，如果处理完毕，执行步骤212；

步骤210，判断是否存在所述当前处理的字符的下一字符；

如果存在，执行步骤211，将下一字符作为当前字符，然后返回执行步骤207；否则执行步骤212。

步骤212，判断是否存在当前行的下一个蒙文串；

如果存在，执行步骤213，将下一个蒙文串作为当前蒙文串；然后返回执行步骤202，否则执行步骤214；

步骤214，判断是否还有未处理的下一行；

如有存在，执行步骤215，将下一行作为当前行，然后返回执行步骤201。

如果所有行都处理完毕，则结束。

图3为本发明实施例提供的一种国际标准编码到蒙科立编码的一个具体的转码处理过程，如图所示，包括：

步骤301，提取当前行的一个蒙文串；

具体的，最初提取的蒙文串为当前行的第一个蒙文串。

步骤302，确定在所述当前蒙文串之前是否包括非蒙文串；

如果包括执行步骤303，否则跳过直接执行步骤304。

步骤303，将非蒙文串转换为国际标准编码(Unicode)；然后执行步骤319；

步骤304，将蒙文串划分为字符串与标点符号的集合；

步骤305，确定所述集合中是否包括未处理的字符串或标点符号；

如果不包括，执行步骤306，将下一个蒙文串作为当前蒙文串；然后返回执行步骤302，否则执行步骤307；

步骤307，判断未处理的是否是标点符号；

如果是，执行步骤308，将所述标点符号转换为蒙科立标点符号；然后执行步骤319；否则执行步骤309；

步骤309，将字符串切分为多个“簇”；

步骤310，获取“簇”的位置属性信息；

步骤311，确定多个“簇”中是否存在国际标准编码；

如果不存在，执行步骤306，将下一个蒙文串作为当前蒙文串；然后返回执行步骤302，否则执行步骤312；

步骤312，获取当前一个“簇”的阴性阳性属性信息；

步骤313，根据所述阴性阳性属性信息查找映射表，将查找得到的第一替换字符进行存储；

没有找到则认为没有规则约束该属性，执行步骤314；

步骤314，获取当前“簇”的词性属性信息；

步骤315，根据所述词性属性信息查找映射表；

步骤316，如果找到与所述词性属性信息相匹配的第二替换字符，则将第二替换字符作为“簇”的蒙科立编码转换结果；

具体的，第二替换字符可能是与第一替换字符相同，也可能不同。

步骤317，如果没找到所述第二替换字符，则将查找得到的第一替换字符作为“簇”的蒙科立编码转换结果；

在执行完步骤316或者步骤317后，步骤318，将所述“簇”的蒙科立编码转换结果拼接到目标串；然后返回执行步骤311；

步骤319，将转化结果拼接到目标串中；

步骤320，确定当前行是否还包括Unicode编码的蒙文；

如果包括，则执行步骤321，将下一个蒙文串作为当前蒙文串；然后返回执行步骤302，否则执行步骤322；

步骤322，判断是否还有未处理的下一行；

如有存在，执行步骤323，将下一行作为当前行，然后返回执行步骤301。

如果所有行都处理完毕，则结束。

相应的，本发明还提供了一种蒙古文编码转换装置的实施例，用以实现本发明上述各实施例中的方法。如图4所示，装置包括：

行数据提取单元401，用于提取当前行的待处理行数据；

处理单元403，用于对所述待处理行数据进行分词数据处理，得到蒙古文单词序列；依次处理所述蒙古文单词序列中的蒙古文单词，得到每个所述蒙古文单词中包括的一个或多个字母的字符信息、位置属性信息和一个或多个字母的编码数据；其中，所述位置属性信息至少包括：标识所述字母在当前所述蒙古文单词中的位置的信息；

匹配单元404，用于在预设的位置信息查找规则表中，依次匹配每一所述字母的字符信息、位置属性信息与所述规则表中替换字符的字符信息、位置属性信息，确定一个或多个命中规则；所述命中规则包括若干期望条件，所述期望条件包括语法约束和相邻位置字母约束；

确定单元402，依次根据所述命中规则，对当前蒙古文单词中的字母进行匹配，确定最优命中规则；

执行单元405，用于将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据。

可选的，当所述规则表中替换字符的位置属性信息没有限定时，所述字母的位置属性信息与所述规则表中替换字符的位置属性信息相匹配。

可选的，当由所述待处理行数据中不包括蒙古文单词，或当前行中全部蒙古文单词的字母转换完毕时，所述行数据提取单元401还用于，提取所述当前行的下一行的待处理行数据。

可选的，所述字母的字符信息包括：词性、阴阳性、前后字符元辅音、音节数中的一种或多种。

可选的，所述位置属性信息包括：独立体、词首、词中、词尾。

在本发明提供的一种蒙古文编码转换装置，运行速度快，占用系统内存小，支持单文件转换和目录转换，适用于蒙古文的拉丁编码、方正编码、蒙科立编码、明安图编码、赛音编码以及国际标准编码之间的转换。

相应的，本发明实施例还提供了一种蒙古文编码转换装置的实施例，用以实现本发明上述各实施例中的方法。如图5所示，装置包括：

文件目录处理模块501，用于处理目录切换和文件列表显示；

文件处理模块502负责处理文件的读、写、保存等操作；

转码引擎模块503负责处理编码转换，其中包括多个编码转换引擎；

转码引擎模块503包括了上述实施例中的行数据提取单元、处理单元、匹配单元、确定单元和执行单元的全部功能。

转码引擎模块503可以包括蒙科立转Unicode引擎、Unicode转蒙科立引擎、蒙科立转方正蒙文引擎、方正蒙文引擎转蒙科立引擎等，具体可以包括用于蒙古文的拉丁编码、方正编码、蒙科立编码、明安图编码、赛音编码以及国际标准编码之间转换的转码引擎。

每个编码转换引擎都关联一个规则管理器(RuleManager)，RuleManager存放适用于该引擎的规则，每一条规则，又有不同的规则项。IRule代表规则项接口，可以派生出不同的规则项子类，且实现类都需要实现isFitForRule方法。此方法用于判断是否符合当前规则项。RuleManager是特定引擎的规则，如Saiyin2UnicodeRule的集合。

程序在处理一个单词时，根据单词的编码扫描RuleMangener，找到若干个Saiyin2UnicodeRule，再通过字符在词中的信息，如位置、阴阳性、词性、前后字符元辅音、音节数等信息，选择最合适的一条Saiyin2UnicodeRule，进行转换。

蒙古文语法解释模块504用于获取编码转换所需的蒙古文语法信息；映射表文件管理模块用于生成码表映射xml文件。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种蒙古文编码转换方法，其特征在于，所述方法包括：

提取当前行的待处理行数据；

将所述字母的编码数据转换为所述最优命中规则中的替换字符的编码数据；

若所述位置属性信息为非空的编码转换，则根据所述位置属性信息的含义在编码数据转换时加入控制字符。

2.根据权利要求1所述的方法，其特征在于，当所述规则表中替换字符的位置属性信息没有限定时，所述字母的位置属性信息与所述规则表中替换字符的位置属性信息相匹配。

3.根据权利要求1所述的方法，其特征在于，当由所述待处理行数据中不包括蒙古文单词，或当前行中全部蒙古文单词的字母转换完毕时，所述方法还包括：

提取所述当前行的下一行的待处理行数据。

4.根据权利要求1所述的方法，其特征在于，所述字母的字符信息包括：词性、阴阳性、前后字符元辅音、音节数中的一种或多种。

5.根据权利要求1所述的方法，其特征在于，所述位置属性信息包括：独立体、词首、词中、词尾。

6.一种蒙古文编码转换装置，其特征在于，所述装置包括：

行数据提取单元，用于提取当前行的待处理行数据；

若所述位置属性信息为非空的编码转换，则根据所述位置属性信息的含义在编码数据转换时加入控制字符；

7.根据权利要求6所述的装置，其特征在于，当所述规则表中替换字符的位置属性信息没有限定时，所述字母的位置属性信息与所述规则表中替换字符的位置属性信息相匹配。

8.根据权利要求6所述的装置，其特征在于，当由所述待处理行数据中不包括蒙古文单词，或当前行中全部蒙古文单词的字母转换完毕时，所述行数据提取单元还用于，提取所述当前行的下一行的待处理行数据。

9.根据权利要求6所述的装置，其特征在于，所述字母的字符信息包括：词性、阴阳性、前后字符元辅音、音节数中的一种或多种。

10.根据权利要求6所述的装置，其特征在于，所述位置属性信息包括：独立体、词首、词中、词尾。