CN103810161A - 西里尔蒙古文到传统蒙古文转换方法 - Google Patents
西里尔蒙古文到传统蒙古文转换方法 Download PDFInfo
- Publication number
- CN103810161A CN103810161A CN201410058055.8A CN201410058055A CN103810161A CN 103810161 A CN103810161 A CN 103810161A CN 201410058055 A CN201410058055 A CN 201410058055A CN 103810161 A CN103810161 A CN 103810161A
- Authority
- CN
- China
- Prior art keywords
- mongolian
- cyrillic
- word
- traditional
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种西里尔蒙古文到传统蒙古文转换方法,该方法包括以下步骤:首先,将西里尔蒙古文文本进行预处理,并将西里尔蒙古文划分为集内词和未登陆词;其次,将所述集内词采用基于规则转换方法进行转换,将所述未登陆词采用基于联合序列模型的转换方法进行转换;再次,将集内词和未登录词的转换结果合并在一起,然后对于西里尔蒙古文到传统蒙古文的一对多对应的单词将采用语言模型选择最后转换结果;最后完成转换。本发明可以将任意西里尔蒙古文文本转换成传统蒙古文文本,并且对未登录词和西里尔蒙古文到传统蒙古文的一对多对应单词可以进行高准确率的转换。
Description
技术领域
本发明涉及语言的转换方法,尤其涉及一种从西里尔蒙古文到传统蒙古文转换方法。
背景技术
蒙古文是一个跨多国、多地区的语言,在世界上有广泛影响,使用者分布在中国、蒙古国和俄罗斯联邦等国家,尤其是中国和蒙古国使用的蒙古语言文字是“语同文不同”,即语言相同,文字不同。在中国使用的蒙古文叫“传统蒙古文”,在蒙古国使用的蒙古文叫“西里尔蒙古文”。
随着中国和蒙古国两国之间的文化、教育和经济的交流与合作不断深入,两国之间的文字转换工作也变的极其重要。西里尔蒙古文到传统蒙古文的转换工作会给两国蒙古族同胞的交流带来更多的便利,并且对蒙古族的科学,文化和教育发展同样具有重要的意义。
传统蒙古文和西里尔蒙古文之间有不可分割的联系,但二者之间有一定的区别:
(1)传统蒙古文有35个字母,其中包含8个元音字母和27个辅音字母。西里尔蒙古文也有35个字母,其中包含13个元音字母,20个辅音字母,硬化字母和软化字母各一个。
(2)西里尔蒙古文字母区分大小写,而传统蒙古文字母不区分大小写。西里尔蒙古文字母的大写用法跟英语相似。传统蒙古文字母不区分大小写,并且每个字母在词中变化有很多,单词中字母在上、中、下位置不同将导致写法也不相同。
(3)西里尔蒙古文和传统蒙古文书写方向不同。西里尔蒙古文采用的是从左到右的书序,从上到下的行序,而传统蒙古文采用从上到下的书序,从左到右的行序。
(4)西里尔蒙古文和传统蒙古文的书面语和口语的差别程度并不相同。西里尔蒙古文中的书面语和口语基本保持一致,口语中怎么发音就基本上怎么拼写,而传统蒙古文的书面语与口语不是一一对应的,书面语转口语时会出现元音和辅音的脱落、增加和变换等现象。
现有的西里尔蒙古文到传统蒙古文的转换技术有基于词典的转换方法和基于规则的转换方法。现有的基于词典的转换方法直接采用对照词典进行转换。现有的基于规则的转换方法首先对输入的西里尔蒙古文单词在词干对照词典中进行查找,若存在该词则转换为对应的传统蒙古文单词,转换完成,若不存在该词则通过西里尔蒙古文的词缀切分规则进行词缀切分,如果切分正确,则把切分后所得到的词干与词缀分别通过词干对照词典和词缀对照词典进行查找对应的传统蒙古文词干和词缀,然后根据传统蒙古文的词缀合成规则合成传统蒙古文单词,转换完成,如果切分失败则转换失败。
然而,传统蒙古文是通过词根缀接多个后缀的方式生成新词的,按照这种生成方式,可以构成大规模的蒙古文单词,词典一般很难全部包含。基于规则的方法很难归纳出所有的转换规则,而且相当一部分单词并不遵循转换规则。并且,西里尔蒙古文中的部分单词会对应多个传统蒙古文单词,基于词典和基于规则的方法无法解决对这类单词的转换。所以,基于词典和基于规则的方法有较大的局限性,从而不能够解决西里尔蒙古文到传统蒙古文工作中存在的一些关键问题,如西里尔蒙古文到传统蒙古文转换时的未登录词的转换及一对多对应单词的转换等。
发明内容
本发明实施例的目的在于提供一种将西里尔蒙古文到传统蒙古文转换方法,旨在解决西里尔蒙古文到传统蒙古文转换时的未登录词的转换及一对多对应单词的转换等问题。
本发明实施例是这样实现的,一种将西里尔蒙古文到传统蒙古文转换方法,该方法包括以下步骤:
一种西里尔蒙古文到传统蒙古文转换方法,包括以下步骤:
步骤一,将西里尔蒙古文进行预处理,并将西里尔蒙古文划分为集内词和未登陆词;
步骤二,将所述集内词采用基于规则转换方法进行转换;
步骤三,将所述未登陆词采用基于联合序列模型的转换方法进行转换;
步骤四,将集内词和未登录词的转换结果合并在一起,然后对于西里尔蒙古文到传统蒙古文一对多对应的单词将采用语言模型选择最后转换结果;
步骤五,完成转换。
进一步地,所述的一种西里尔蒙古文到传统蒙古文转换方法,在步骤一中,所述预处理包括对西里尔蒙古文文本进行分句处理,数字和特殊符号等非西里尔蒙古文字母的判断,西里尔蒙古文大写字母的转换,采用西里尔蒙古文词干库和构形后缀库对西里尔蒙古文进行切分和判断,并将西里尔蒙古文划分成集内词和未登录词。
进一步地,所述的一种西里尔蒙古文到传统蒙古文转换方法,在步骤三中,采用基于联合序列模型的转换方法,该方法包括以下步骤:
步骤一,由一个或多个西里尔蒙古文和传统蒙古文对应的字母作为一个联合多元,并采用EM(Expectation-Maximization Algorithm)算法对模型进行估计;
步骤二,对模型进行平滑和裁剪处理;
步骤三,采用Viterbi算法进行解码。
本发明可以将任意西里尔蒙古文文本转换成传统蒙古文文本,并且对未登录词和西里尔蒙古文到传统蒙古文的一对多对应单词可以进行高准确率的转换。
附图说明
图1为本发明语言转化流程图;
图2为采用西里尔蒙古文到传统蒙古文转换当中的集内词转换示例图;
图3西里尔蒙古文到传统蒙古文转换示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明语言转化流程图,如图1所示,本发明提供一种西里尔蒙古文到传统蒙古文转换方法,包括以下步骤:
步骤一,将西里尔蒙古文进行预处理,包括对文本进行分句处理,数字和特殊符号等非西里尔蒙古文字母的判断,西里尔蒙古文大写字母的转换,采用西里尔蒙古文词干库和构形后缀库对西里尔蒙古文进行切分和判断,并将西里尔蒙古文划分成集内词和未登录词。
步骤二,将所述集内词采用基于规则转换方法进行转换;
步骤三,将所述未登陆词采用基于联合序列模型的转换方法进行转换;
步骤四,将集内词和未登录词的转换结果合并在一起,然后对于西里尔蒙古文到传统蒙古文一对多对应的单词将采用语言模型选择最后转换结果;
步骤五,完成转换。
其中,集内词采用基于规则的转换方法进行转换,附图2为西里尔蒙古文到传统蒙古文转换当中的集内词转换示例图。该方法包括以下步骤:
步骤一,结合西里尔蒙古文和传统蒙古文元音和谐规律、元音生成和脱落规律等蒙古文构词规则,设计西里尔蒙古文和传统蒙古文词干和构形后缀连接规则库;
步骤二,对西里尔蒙古文集内词进行词干和构形后缀的切分;
步骤三,采用西里尔蒙古文和传统蒙古文对应的词干库和构形后缀库,将西里尔蒙古文词干和后缀转换成传统蒙古文词干和后缀;
步骤四,利用规则库将传统蒙古文词干和后缀进行合并,构成传统蒙古文单词。
对于采用基于规则无法转换的词,我们称之为未登录词。我们采用基于联合序列模型的方法转换这些未登录词。联合序列模型的基本思想是输入和输出序列共同可以生成包含输入和输出符号的联合单位的共同序列。简单情况下,每个单位带有零或一个输入符号和零或一个输出符号。这相当于有限状态转换器的传统定义。这种可以由多个输入和输出符号组成的单位称之为联合多元(Joint Multigram)。本发明将西里尔蒙古文字母和传统蒙古文字母序列分成相等的段数,这样的分组称为联合分割。联合分割中的对齐项是可以交换使用的。我们将这特殊的对齐类型称为“m-to-n”对齐。对于一个给定的西里尔蒙古文和传统蒙古文字母串对,分割联合多元的结果不是唯一的。对于可能有歧义的m-to-n对齐,我们可以对输入的字母串进行自由的组合。本发明的模型估计采用了EM算法,用EM算法训练模型时,很可能会出现过拟合现象,并且在预测未出现的数据时效果不佳。同样,从训练样本中分析得到的一些单调初始化的联合多元会达到某个概率聚集,而只有其中的小部分将有助于“正确”的模型估计。这两个问题分别会通过裁剪和平滑进行处理。解码算法采用了Viterbi算法。
基于联合序列模型的转换方法包括以下步骤:
步骤一,建立西里尔蒙古文和传统蒙古文对照单词训练库;
步骤二,由一个或多个西里尔蒙古文字母和传统蒙古文字母作为一个联合多元,并采用EM算法对模型进行估计;
步骤三,对模型进行平滑和裁剪处理;
步骤四,采用Viterbi算法进行解码。
集内词和未登录词转换完后,对转换结果进行合并,并对于西里尔蒙古文对应多个传统蒙古文的单词将采用语言模型进行最优转换结果的选择。例如,西里尔蒙古文句子“танай амар тθвшинийг хамгаалхаар явсан юм.”转换成传统蒙古文时,西里尔蒙古文单词“aMap”和“юM”对应多个传统蒙古文单词,图3西里尔蒙古文到传统蒙古文转换示例图,如图3所示,转换后的传统蒙古文采用了拉丁方式进行了转写。图中可看出西里尔蒙古文单词“амар”可以转换成4个传统蒙古文,西里尔蒙古文单词“юM”可以转换成2个传统蒙古文。粗线路径表示正确转换结果,正确结果为“对应的拉丁转写为“tan-v amvr tobsin-ihamagalahv-bar yabvgsan yvm。”。
所述采用语言模型选择最优的传统蒙古文候选结果采用下式:
其中,T’表示最优的转换结果,Q表示所有候选路径,T={t1t2...tm}表示所有候选集合Q中的任意一个候选路径,P(T)表示选择候选路径T的概率。P(T)可以表示为:
为了计算方便,可以假定任意一个词的出现概率只同它紧前面的N-1个词有关(N<m),这时的模型就是典型的N元模型(N-gram),即
则词tj的条件概率的估计公式为:
式中count(...)表示一个特定词序列在整个文本语料库中出现的累计次数。
综上所述,针对西里尔蒙古文到传统蒙古文的转换工作中西里尔蒙古文未登录词转换和西里尔蒙古文对应多个传统蒙古文的问题提出了基于规则和统计相结合的转换方法。该方法有效的解决了未登录词和西里尔蒙古文对应多个传统蒙古文单词的转换问题,并且实现了高效的西里尔蒙古文到传统蒙古文的转换系统。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (3)
1.一种西里尔蒙古文到传统蒙古文转换方法,其特征在于,包括以下步骤:
步骤一,将西里尔蒙古文进行预处理,并将西里尔蒙古文划分为集内词和未登陆词;
步骤二,将所述集内词采用基于规则转换方法进行转换;
步骤三,将所述未登陆词采用基于联合序列模型的转换方法进行转换;
步骤四,将集内词和未登录词的转换结果合并在一起,然后对于西里尔蒙古文到传统蒙古文一对多对应的单词将采用语言模型选择最后转换结果;
步骤五,完成转换。
2.如权利要求1所述的一种西里尔蒙古文到传统蒙古文转换方法,其特征在于,在步骤一中,所述预处理包括对西里尔蒙古文文本进行分句处理,数字和特殊符号等非西里尔蒙古文字母的判断,西里尔蒙古文大写字母的转换,采用西里尔蒙古文词干库和构形后缀库对西里尔蒙古文进行切分和判断,并将西里尔蒙古文划分成集内词和未登录词。
3.如权利要求1所述的一种西里尔蒙古文到传统蒙古文转换方法,其特征在于,在步骤三中,采用基于联合序列模型的转换方法,该方法包括以下步骤:
步骤一,由一个或多个西里尔蒙古文和传统蒙古文对应的字母作为一个联合多元,并采用EM算法对模型进行估计;
步骤二,对模型进行平滑和裁剪处理;
步骤三,采用Viterbi算法进行解码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410058055.8A CN103810161B (zh) | 2014-02-21 | 2014-02-21 | 西里尔蒙古文到传统蒙古文转换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410058055.8A CN103810161B (zh) | 2014-02-21 | 2014-02-21 | 西里尔蒙古文到传统蒙古文转换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103810161A true CN103810161A (zh) | 2014-05-21 |
CN103810161B CN103810161B (zh) | 2017-01-25 |
Family
ID=50706948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410058055.8A Expired - Fee Related CN103810161B (zh) | 2014-02-21 | 2014-02-21 | 西里尔蒙古文到传统蒙古文转换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810161B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331400A (zh) * | 2014-11-05 | 2015-02-04 | 中央民族大学 | 一种蒙古文编码转换方法和装置 |
CN106339367A (zh) * | 2016-08-22 | 2017-01-18 | 内蒙古大学 | 一种蒙古文自动校正方法 |
CN108334502A (zh) * | 2017-12-29 | 2018-07-27 | 内蒙古蒙科立蒙古文化股份有限公司 | 一种传统蒙古文与西里尔蒙古文的相互转换方法 |
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN109359293A (zh) * | 2018-09-13 | 2019-02-19 | 内蒙古大学 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
CN110895659A (zh) * | 2018-08-22 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置及计算设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604308A (zh) * | 2009-07-24 | 2009-12-16 | 内蒙古蒙科立软件有限责任公司 | 蒙古文字母变体形式编码技术 |
-
2014
- 2014-02-21 CN CN201410058055.8A patent/CN103810161B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604308A (zh) * | 2009-07-24 | 2009-12-16 | 内蒙古蒙科立软件有限责任公司 | 蒙古文字母变体形式编码技术 |
Non-Patent Citations (7)
Title |
---|
HAO LI,ETC: "The study of comparison and conversion about traditional mongolian and cyrillic mongolian", 《INTELLIGENT NETWORKS AND INTELLIGENT SYSTEMS(ICINIS),2011 4TH INTERNATIONAL CONFERENCE ON》 * |
丛伟: "基于层叠隐马尔可夫模型的蒙古语词切分系统的研究", 《万方学位论文数据库》 * |
包萨日娜: "传统蒙古文到新蒙文转换中名词及其格附加成分转换的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
张瑾: "规则与统计相结合的蒙古文编码转换的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
明玉: "基于词典、规则与统计的蒙古文词切分系统的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
飞龙: "蒙古语语音关键词检测技术的研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
飞龙等: "传统蒙古文与西里尔蒙古文相互转换方法的研究", 《计算机工程与应用》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331400A (zh) * | 2014-11-05 | 2015-02-04 | 中央民族大学 | 一种蒙古文编码转换方法和装置 |
CN104331400B (zh) * | 2014-11-05 | 2017-11-03 | 中央民族大学 | 一种蒙古文编码转换方法和装置 |
CN106339367A (zh) * | 2016-08-22 | 2017-01-18 | 内蒙古大学 | 一种蒙古文自动校正方法 |
CN106339367B (zh) * | 2016-08-22 | 2018-09-18 | 内蒙古大学 | 一种蒙古文自动校正方法 |
CN108334502A (zh) * | 2017-12-29 | 2018-07-27 | 内蒙古蒙科立蒙古文化股份有限公司 | 一种传统蒙古文与西里尔蒙古文的相互转换方法 |
CN110895659A (zh) * | 2018-08-22 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置及计算设备 |
CN110895659B (zh) * | 2018-08-22 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置及计算设备 |
CN109359293A (zh) * | 2018-09-13 | 2019-02-19 | 内蒙古大学 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
CN109359293B (zh) * | 2018-09-13 | 2019-09-10 | 内蒙古大学 | 基于神经网络的蒙古文命名实体识别方法及其识别系统 |
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN109271529B (zh) * | 2018-10-10 | 2020-09-01 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103810161B (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106598939B (zh) | 一种文本纠错方法及装置、服务器、存储介质 | |
Han et al. | Automatically constructing a normalisation dictionary for microblogs | |
CN101133411B (zh) | 非罗马字符的容错罗马化输入方法 | |
CN103810161A (zh) | 西里尔蒙古文到传统蒙古文转换方法 | |
CN102298582A (zh) | 数据搜索和匹配方法和系统 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
Reuter et al. | Segmenting twitter hashtags | |
CN102915122A (zh) | 基于语言模型的智能移动平台拼音输入法 | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
Li et al. | A hybrid system for Chinese grammatical error diagnosis and correction | |
CN100403239C (zh) | 基于英文键盘的藏文输入法 | |
CN102053719B (zh) | 华文汉字输入法 | |
Sakor et al. | FALCON: an entity and relation linking framework over dbpedia | |
CN109871550B (zh) | 一种基于后处理技术的提高数字翻译质量的方法 | |
CN105045410A (zh) | 一种形式化拼音和汉字对应识别的方法 | |
CN104239294A (zh) | 藏汉翻译系统的多策略藏语长句切分方法 | |
Hasan et al. | SweetCoat-2D: Two-Dimensional Bangla Spelling Correction and Suggestion Using Levenshtein Edit Distance and String Matching Algorithm | |
Debnath et al. | A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words | |
Oji et al. | Perspelldata: An exhaustive parallel spell dataset for persian | |
Li et al. | The study of comparison and conversion about traditional Mongolian and Cyrillic Mongolian | |
CN103984420A (zh) | 一种基于拼音的藏文智能输入法 | |
TW201606527A (zh) | 一種文字輸入的方法和裝置 | |
Mon | Spell checker for Myanmar language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160518 Address after: 010021 Hohhot West Road, Inner Mongolia, No. 235 Applicant after: Inner Mongolia University Address before: 010021 Hohhot West Road, the Inner Mongolia Autonomous Region, No. 235 Applicant before: Fei Long |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170125 Termination date: 20210221 |