CN107193787A - 一种蒙古文字母变体形式的自适应方法 - Google Patents

一种蒙古文字母变体形式的自适应方法 Download PDF

Info

Publication number
CN107193787A
CN107193787A CN201710242975.9A CN201710242975A CN107193787A CN 107193787 A CN107193787 A CN 107193787A CN 201710242975 A CN201710242975 A CN 201710242975A CN 107193787 A CN107193787 A CN 107193787A
Authority
CN
China
Prior art keywords
pronunciation
mongolian
read
alphabetical
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710242975.9A
Other languages
English (en)
Inventor
木仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710242975.9A priority Critical patent/CN107193787A/zh
Publication of CN107193787A publication Critical patent/CN107193787A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种蒙古文字母变体形式的自适应方法,其特征在于:首先依据《蒙古文字母顺序》国家规范标准建立涵盖蒙古文字母变体形式的蒙古文字母数据库;其次根据蒙古文字词结构规律建立蒙古文字母变体形式处理单元列举出字母变体形式的多种组合;再次调用数字化的蒙古文词典库,对经过蒙古文字母变体形式处理单元列举出的各种组合正音正字;最后将判断出正确的字母变体形式与计算机中的蒙古文国家标准码位对应。在于解决现有计算机国家标准下的蒙古文字体数量有限、字形效果呆板和二义性问题;提供一种蒙古文字母计算机、移动终端和移动通讯设备上显示民族文字多种字体和具有美感字形的自适应方法。

Description

一种蒙古文字母变体形式的自适应方法
技术领域
本发明涉及计算机文字处理技术领域,尤其涉及一种少数民族文字在计算机文字处理技术中字母变体形式的自适应方法,特指一种蒙古文字母在计算机、计算机移动设备、移动通讯设备上显示、输入和识别变体形式的自适应方法。
背景技术
蒙古文字是经过腓尼基字母--阿拉马字母--粟特字母--畏兀儿字母这样一个漫长的演变过程的。它从上到下连写(一个单词为一个单位),从左到右移行。由8个元音、27个辅音共35个读音组成。蒙古文字母在字词中所处的位置不同分为独立、词首、词中、词尾等四种字形,蒙古文字词中上下黏结不同字母时会有不同的变体形式。
从发明计算机开始,经历互联网信息时代到现在的大数据时代,国家标准的规则中只对蒙古文35个字母进行了名义字符的编码,未对所有字母的变体形式进行次序和编码,且未考虑计算机操作系统的版本兼容性问题。采用国家标准会产生多对多的二义性和复杂性问题;也会产生蒙古文字母在字词中上下黏结不同字母时产生结构失真的问题。上述的蒙古文字母变体形式次序规定和编码无法保证蒙古文字词的完全读音分解和自然排序。需要开发二次蒙古文字词排序软件,否则无法保证在计算机键盘输入拉丁文相互转写和与国家标准相互转化中的一对多和多对一的关系;同时也会因为编码设计的局限性造成蒙古文在计算机上的字体数量有限和字形效果呆板的问题。随着国家“大众创业,万众创新”的继续深入发展,民族地区需要有和计算机相结合能够丰富的处理民族文字、快速准确识别民族语音和图像中的民族文字以及计算机、计算机移动设备和移动通讯设备上显示民族文字多种字体和具有美感字形的技术方案。
为了解决上述的问题,本发明人经过多年的研究和多次试验,开发了一种蒙古文字母变体形式的自适应方法以此来解决蒙古文字母在计算机、计算机移动设备、移动通讯设备上显示、输入和识别变体形式的自适应方法。
发明内容
本发明一种蒙古文字母变体形式的自适应方法的目的,在于解决计算机、计算机移动设备、移动通讯设备上的蒙古文字体数量有限、字形效果呆板和二义性问题;提供一种蒙古文字母在计算机、计算机移动设备、移动通讯设备上显示、输入和识别变体形式的自适应方法。
本发明一种蒙古文字母变体形式的自适应方法的另一目的,在于采用本发明的方法提供一种能够在计算机上设计出蒙古文多种字体、更美观的计算机用字体。
本发明一种蒙古文字母变体形式的自适应方法为达到上述的目的,所采用的的技术手段为:首先依据《蒙古文字母顺序》国家规范标准建立涵盖蒙古文字母变体形式的蒙古文字母数据库;其次根据蒙古文字词结构规律建立蒙古文字母变体形式处理单元列举出字母变体形式的多种组合;再次调用数字化的蒙古文词典库,对经过蒙古文字母变体形式处理单元列举出的各种组合正音正字;最后将判断出正确的字母变体形式与计算机中的蒙古文国家标准码位对应;
在蒙古文字母变体形式处理单元中按照蒙古文字词结构中建立独立字形、词首字形、词尾字形和词中字形数据单元;建立常用形式、第二形式、第三形式、词中整形、词中分写形和词中连写形数据单元;
采用四次循环嵌套的方式将独立字形、词首字形、词尾字形和词中字形中的字母变体形式与常用形式、第二形式、第三形式、词中整形、词中分写形和词中连写形进行组合,组合出的蒙古文字母变体形式存放在蒙古文字母变体形式处理单元对比数据库中;
读音不同字母按照国家规范《蒙古文字母顺序》的读音次序编码。即读A;读E;读I;读O;读U;读OE;读UE;读EE;读N;读ANG;读B;读P;读Q;读G;读M;读L;读S;读SH;读T;读D;读CH;读J;读Y;读R;读W;读F;读K;读KH;读TS;读Z;读HA;读ZR;读LH;读ZHI;读CHI的依次编码;
读音A的所有变体形式的编码次序为
读音E的所有变体形式的编码次序为
读音I的所有变体形式的编码次序为
读音O的所有变体形式的编码次序为
读音U的所有变体形式的编码次序为
读音OE的所有变体形式的编码次序为
读音UE的所有变体形式的编码次序为
读音EE的所有变体形式的编码次序为
读音N的所有变体形式的编码次序为
读音ANG的所有变体形式的编码次序为
读音B的所有变体形式的编码次序为
读音P的所有变体形式的编码次序为
读音Q的所有变体形式的编码次序为
读音G的所有变体形式的编码次序为
读音M的所有变体形式的编码次序为
读音L的所有变体形式的编码次序为
读音S的所有变体形式的编码次序为
读音SH的所有变体形式的编码次序为
读音T的所有变体形式的编码次序为
读音D的所有变体形式的编码次序为
读音CH的所有变体形式的编码次序为
读音J的所有变体形式的编码次序为
读音Y的所有变体形式的编码次序为
读音R的所有变体形式的编码次序为
读音W的所有变体形式的编码次序为
读音F的所有变体形式的编码次序为
读音K的所有变体形式的编码次序为
读音KH的所有变体形式的编码次序为
读音TS的所有变体形式的编码次序为
读音Z的所有变体形式的编码次序为
读音HA的所有变体形式的编码次序为
读音ZR的所有变体形式的编码次序为
读音LH的所有变体形式的编码次序为
读音ZHI的所有变体形式的编码次序为
读音CHI的所有变体形式的编码次序为
采用上述的技术手段,本发明一种蒙古文字母变体形式的自适应方法的有益效果为使所有现有蒙古文编码完全实现读音编码,实现了蒙古文字词自然排序、完全达到蒙古文字词的拉丁文相互转写、国家标准相互转换的一对多和多对一关系、在蒙古文计算机用字体开发上提供了宽松的设计制作条件,为蒙古文语音输入、输出铺平了技术瓶颈。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1.所示为实现本发明实施方式的示例性计算系统的框图。
图2.所示为本发明一种蒙古文字母变体形式的自适应方法的装置结构图。
图3.所示为计算机蒙古文识别装置结构图。
具体实施方式
为使本发明的目的,技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
图1.所示为实现本发明实施方式的示例性计算系统的框图。如图所示计算机系统可以包括:CPU(中央处理单元)、RAM(随机存取存储器)、ROM(只读存储器)、系统总线、硬盘控制器、键盘控制器、串行接口控制器、并行接口控制器、显示控制器、硬盘、键盘、串行外部设备、并行外部设备和显示器。在这些设备中,与系统总线耦合的有CPU、RAM、ROM、硬盘控制器、键盘控制器、串行控制器、并行控制器和显示控制器。硬盘与硬盘控制器耦合,键盘与键盘控制器耦合,串行外部设备与串行接口控制器耦合,并行外部设备与并行接口控制器耦合,以及显示器与显示控制器耦合。应当理解,图1.所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况而增加或者减少某些设备。实现本发明方法实施例的全部或部分步骤可以通过方法步骤和相关程序结合硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括本发明方法,实施例的步骤、而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图2.所示为本发明一种蒙古文字母变体形式的自适应方法的装置结构图。如图2.所示该装置包括处理单元和加载单元、所述处理单元,用于当应用程序加载输入法时,获得为该应用程序设置的专用输入法参数配置规则、所述加载单元,用于根据所述处理单元获得的输入法参数配置规则,根据该输入法参数配置规则确定的配置参数代替输入法全局参数中对应的参数加载输入法。本发明所列举的装置可以内置于用户终端。
该装置进一步包括两个数据库单元。第一数据库单元为蒙古文字母数据库单元,用于保存记录蒙古文字母字变体形式以及对应配置规则的本地规则库。第二数据库单元为数字化蒙古文词典库单元,用于保存记录蒙古文词典以及对应蒙古文语法规则和文字含义及组词的本地规则库。规则库是根据结合蒙古文字母变体形式规范使用规则,依据蒙古文字母的变体形式归类为常用形式字形、第二形式字形、第三形式字形、词中整形字形、词中分写字形和词中连写字形。详细归类如下:
常用形式字形有:独立字形的(读E字形),等、词首字形的(读A字形),(读E字形),等、词尾字形的 等、词中字形的(读A和读E字形),(读I字形),(读O和读U字形),(读EE字形),等;
第二形式字形有:独立字形的(读A字形),(读I字形),等、词首字形的(读A字形),(读E字形)等、词尾字形的(读O和读U字形), 等、词中字形的(读OE和读UE字形),等;
第三形式字形有:词尾字形的(读OE和读UE字形)等;
词中整形字形有:等;
词中分写字形有:(读N字形),(读J字形),(读Y字形),(读音W)等;
词中连写字形有:(读N字形),(读音W)等。
所述的处理单元与蒙古文字母数据库单元和加载单元分别连接。处理单元从蒙古文字母数据库中调入蒙古文字母字形,按照蒙古文字母数据库单元中配置的本地规则,即蒙古文文字的常用形式字形、第二形式字形、第三形式字形、词中整形和词中分写字形和独立字形、词首字形、词尾字形和词中字形组成矩阵。按照矩阵中逐个排列组合出所有字形的组合形式。所述加载单元逐个将处理单元中组合出来的蒙古文变体形式与蒙古文词典库单元进行比对,选择出正确的字母变体形式返回到处理单元。处理单元将接收到的正确字母变体形式与蒙古文国家标准键盘码位进行对应,结合国家规范《蒙古文字母顺序》做出如下编码:
一、读音不同字母按照国家规范《蒙古文字母顺序》的读音次序编码。即读A、读E、读I、读O、读U、读OE、读UE、读EE、读N、读ANG、读B、读P、读Q、读G、读M、读L、读S、读SH、读T、读D、读CH、读J、读Y、读R、读W、读F、读K、读KH、读TS、读Z、读HA、读ZR、读LH、读ZHI、读CHI的依次编码。
二、读音相同字母的变体形式按照字词中的不同位置,依次为独立字形、词首字形、词尾字形、词中字形的顺序编码;
三、读音相同、字词中所处位置相同字母的变体形式按照如下顺序编码:
1.读音相同字母的独立字形的编码顺序依次为读音A、读音E、读音I、读音O、读音U、读音OE、读音UE和读音EE等的独立字形的常用形式编在最前,第二形式编在最后;
2.读音相同字母的词首字形的编码顺序依次为读音A、读音E、读音I、读音O、读音U、读音OE、读音UE、读音EE、读音CH、读音W、读音TS、读音Z、读音HA、读音LH、读音ZHI和读音CHI等的词首字形的常用形式编在最前,第二形式在常用形式之后、读音N的词首字形遵循的字形先后顺序,读音Q的词首字形遵循的字形先后顺序,读音G的词首字形遵循的字形先后顺序,读音D的词首字形遵循的字形先后顺序下,按照下粘结元音的读音次序和不粘结元音的顺序编码、读音B、读音P、读音F、读音K和读音KH等的词首字形按照下粘结读音A、读音E和读音I等的编在最前,下粘结读音O、读音U、读音OE和读音UE等的编在其次,下粘结其它读音的编在最后、读音M、读音L、读音S、读音SH、读音T和读音ZR等的词首字形按照下粘结读音A、读音E和读音I等的编在最前,下粘结读音O、读音U、读音OE和读音UE等的编在其次,下粘结其它读音的编在最后、读音J和读音R的词首字形按照下粘结读音A和读音E的编在最前,下粘结读音I的编在其次,下粘结其它读音的编在最后、读音Y的词首字形按照下粘结读音A、读音E和读音I等的词首形式编在最前,词首形式编在其次,下粘结其它读音的词首字形编在最后。
3.读音相同字母的词尾字形的编码顺序依次为所有读音的常用形式编在最前,第二形式编在其次,第三形式编在第三位,元音字母的上粘结读音B、读音P、读音Q、读音G、读音F、读音K和读音KH等词首或词中字形的编在最后。
4.读音相同字母的词中字形的编码顺序依次为读音A、读音E、读音I、读音O、读音U、读音OE、读音UE、读音EE、读音D、读音CH、读音TS、读音Z和读音HA等的词中字形的常用形式编在最前,第二形式其次,元音字母的上粘结读音B、读音P、读音Q、读音G、读音F、读音K和读音KH等词首或词中字形的编在第三位,词中整形编在最后、读音N的词中字形先遵循的字形先后顺序,再遵循分写字形在前、连写字形在后的顺序,再按照下粘结元音的读音次序顺序编码、读音ANG的词中字形在遵循下粘结辅音的不同变体形式时本身存在不同变体形式,先按照下粘结辅音与元音组合的读音次序编码,最后将读音N的不粘结元音的词中字形编码,且读音N遵循的字形先后顺序、读音B、读音P、读音F、读音K和读音KH等的词中字形按照下粘结读音A、读音E和读音I等的编在最前,下粘结读音O、读音U、读音OE和读音UE等的编在其次,下粘结读音EE的编在第三,最后遵循下粘结辅音的不同变体形式时本身存在不同变体形式,按照下粘结辅音与元音组合的读音次序编码、读音Q的词中字形先遵循的字形先后顺序,再遵循分写字形在前、连写字形在后的顺序,再按照下粘结元音的读音次序和不粘结元音的顺序编码、读音G的词中字形先遵循的字形先后顺序,再遵循分写字形在前、连写字形在后的顺序,再按照下粘结元音的读音次序和不粘结读音的顺序编码,最后遵循下粘结辅音的不同变体形式时本身存在不同变体形式,按照下粘结辅音与元音组合的读音次序编码、读音M和读音L的词中字形先遵循的字形先后顺序,再遵循分写字形在前、连写字形在后的顺序,再按照下粘结元音的读音次序和不粘结元音的顺序编码、读音S、读音SH和读音ZR等的词中字形按照下粘结读音A、读音E和读音I等的编在最前,下粘结读音O、读音U、读音OE和读音UE等的编在其次,下粘结其它读音的编在最后、读音T的词中字形先遵循的字形先后顺序,再按照下粘结元音的读音次序和其它读音的顺序编码、读音J、读音R和读音W等的词中字形先遵循分写字形在前、连写字形在后的顺序,再按照下粘结元音的读音次序和其它读音的顺序编码、读音Y的词中字形先遵循分写字形在前、连写字形在后的顺序,再按照下粘结读音A和读音E的编在最前,下粘结读音I的其次,下粘结读音O、读音U、读音OE、读音OU、读音EE等及不粘结元音的最后编码,其中下粘结读音I的还要遵循的前后顺序、读音LH词中字形先遵循的字形先后顺序,再按照下粘结元音的读音次序和不粘结元音的顺序编码。
四、读音ANG、读音B、读音P、读音Q、读音G、读音M、读音L、读音F、读音K、读音KH和读音LH等与蒙古文字母部分变体形式相互上下粘结时,按照如下规则粘结字母变体形式:
1.读音ANG和读音G的变体形式粘结规则如下:
字形下粘结字形有等及读音B、读音P、读音S、读音SH、读音CH、读音J、读音F、读音K、读音KH、读音TS、读音Z和读音ZR等词中或词尾字形。
字形下粘结字形有 等及读音ANG和读音HA的词中或词尾字形。
字形下粘结字形有等。
2.读音B、读音P、读音Q、读音G、读音F、读音K和读音KH等与元音组合时变体形式粘结规则如下:
读音A、读音E、读音I和读音EE等词中和词尾字形组合时,字形分别为 等与等。
与读音O、读音U、读音OE和读音UE等词中和词尾字形组合时,字形分别为 等与等。
3.读音B、读音P、读音F、读音K和读音KH等在下粘结辅音时变体形式粘结规则如下:
字形为等的下粘结字形有 等及读音B、读音P、读音S、读音SH、读音CH、读音J、读音F、读音K、读音KH、读音TS、读音Z和读音ZR等词中或词尾字形。
字形为等的下粘结字形有 等及读音ANG和读音HA的词中或词尾字形。
4.读音M、读音L和读音LH等在上粘结读音ANG、读音B、读音P、读音G、读音F、读音K和读音KH等时变体形式粘结规则如下:字形等的上粘结字形有 等。
读音相同字母的所有变体形式编码次序具体依次如下:
1.读音A的所有变体形式的编码次序为
2.读音E的所有变体形式的编码次序为
3.读音I的所有变体形式的编码次序为
4.读音O的所有变体形式的编码次序为
5.读音U的所有变体形式的编码次序为
6.读音OE的所有变体形式的编码次序为
7.读音UE的所有变体形式的编码次序为
8.读音EE的所有变体形式的编码次序为
9.读音N的所有变体形式的编码次序为
10.读音ANG的所有变体形式的编码次序为
11.读音B的所有变体形式的编码次序为
12.读音P的所有变体形式的编码次序为
13.读音Q的所有变体形式的编码次序为
14.读音G的所有变体形式的编码次序为
15.读音M的所有变体形式的编码次序为
16.读音L的所有变体形式的编码次序为
17.读音S的所有变体形式的编码次序为
18.读音SH的所有变体形式的编码次序为
19.读音T的所有变体形式的编码次序为
20.读音D的所有变体形式的编码次序为
21.读音CH的所有变体形式的编码次序为
22.读音J的所有变体形式的编码次序为
23.读音Y的所有变体形式的编码次序为
24.读音R的所有变体形式的编码次序为
25.读音W的所有变体形式的编码次序为
26.读音F的所有变体形式的编码次序为
27.读音K的所有变体形式的编码次序为
28.读音KH的所有变体形式的编码次序为
29.读音TS的所有变体形式的编码次序为
30.读音Z的所有变体形式的编码次序为
31.读音HA的所有变体形式的编码次序为
32.读音ZR的所有变体形式的编码次序为
33.读音LH的所有变体形式的编码次序为
34.读音ZHI的所有变体形式的编码次序为
35.读音CHI的所有变体形式的编码次序为
实施例二
如图3.所示计算机蒙古文识别装置结构图。如图3.所示蒙古文识别装置结构包括收录/扫描模块、识别模块、正音正字模块和蒙古文显示模块。所述收录/扫描模块是通过计算机上连接打开收录装置,将蒙古文发音的词、句子收录到所述的模块内,该模块位于计算机的RAM上,模块通过计算机总线经中央处理器发布调用命令从计算机存储硬盘上调用。或通过计算机上连接打开扫描装置,将蒙古文的词、句子的图片收录到所述的模块内,该模块位于计算机的RAM上,模块通过计算机总线经中央处理器发布调用命令从计算机存储硬盘上调用。如图2.和图3.所示识别模块包括处理单元和加载单元、所述处理单元,用于当应用程序加载输入法时,获得为该应用程序设置的专用输入法参数配置规则、所述加载单元,用于根据所述处理单元获得的输入法参数配置规则,根据该输入法参数配置规则确定的配置参数代替输入法全局参数中对应的参数加载输入法,本发明所列举的装置可以内置于用户终端。
该装置进一步包括两个数据库单元。第一数据库单元为蒙古文字母数据库单元,用于保存记录蒙古文字母字变体形式以及对应配置规则的本地规则库,所述的数据库在识别模块内。第二数据库单元为数字化蒙古文词典库单元,用于保存记录蒙古文词典以及对应蒙古文语法规则和文字含义及组词的本地规则库,所述的蒙古文字典数据库单元在正音正字模块。规则库是根据结合蒙古文字母变体形式规范使用规则,依据蒙古文字母的变体形式归类为常用形式字形、第二形式字形、第三形式字形、词中整形字形、词中分写字形和词中连写字形。所述的处理单元与蒙古文字母数据库单元和加载单元分别连接。处理单元从蒙古文字母数据库中调入蒙古文字母字形,按照蒙古文字母库单元中配置的本地规则,即蒙古文文字的常用形式字形、第二形式字形、第三形式字形、词中整形和词中分写字形和独立字形、词首字形、词尾字形和词中字形组成矩阵。按照矩阵中逐个排列组合出所有字形的组合形式。所述加载单元逐个将处理单元中组合出来的蒙古文变体形式与蒙古文字典数据库单元进行比对,选择出正确的字母变体形式返回到处理单元。处理单元将接收到的正确字母变体形式与蒙古文国家标准键盘码位进行对应,然后将正确识别的蒙古文语音或者图片中对应的蒙古文文字显示在计算机显示模块上。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质,包括但不限于磁盘存储器和光学存储器等上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备或系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种蒙古文字母变体形式的自适应方法,其特征在于:首先依据《蒙古文字母顺序》国家规范标准建立涵盖蒙古文字母变体形式的蒙古文字母数据库;其次根据蒙古文字词结构规律建立蒙古文字母变体形式处理单元列举出字母变体形式的多种组合;再次调用数字化的蒙古文词典库,对经过蒙古文字母变体形式处理单元列举出的各种组合正音正字;最后将判断出正确的字母变体形式与计算机中的蒙古文国家标准码位对应。
2.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于在蒙古文字母变体形式处理单元中按照蒙古文字词结构中建立独立字形、词首字形、词尾字形和词中字形数据单元;建立常用形式、第二形式、第三形式、词中整形、词中分写形和词中连写形数据单元。
3.根据权利要求2所述的一种蒙古文字母变体形式的自适应方法,其特征在于采用四次循环嵌套的方式将独立字形、词首字形、词尾字形和词中字形中的字母变体形式与常用形式、第二形式、第三形式、词中整形、词中分写形和词中连写形进行组合,组合出的蒙古文字母变体形式存放在蒙古文字母变体形式处理单元对比数据库中。
4.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于读音不同字母按照国家规范《蒙古文字母顺序》的读音次序编码。即读A;读E;读I;读O;读U;读OE;读UE;读EE;读N;读ANG;读B;读P;读Q;读G;读M;读L;读S;读SH;读T;读D;读CH;读J;读Y;读R;读W;读F;读K;读KH;读TS;读Z;读HA;读ZR;读LH;读ZHI;读CHI的依次编码。
5.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于读音A的所有变体形式的编码次序为
6.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于读音E的所有变体形式的编码次序为
7.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于读音I的所有变体形式的编码次序为
8.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于读音O的所有变体形式的编码次序为
9.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于读音U的所有变体形式的编码次序为
10.根据权利要求1所述的一种蒙古文字母变体形式的自适应方法,其特征在于读音OE的所有变体形式的编码次序为
CN201710242975.9A 2017-04-14 2017-04-14 一种蒙古文字母变体形式的自适应方法 Pending CN107193787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710242975.9A CN107193787A (zh) 2017-04-14 2017-04-14 一种蒙古文字母变体形式的自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710242975.9A CN107193787A (zh) 2017-04-14 2017-04-14 一种蒙古文字母变体形式的自适应方法

Publications (1)

Publication Number Publication Date
CN107193787A true CN107193787A (zh) 2017-09-22

Family

ID=59871171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710242975.9A Pending CN107193787A (zh) 2017-04-14 2017-04-14 一种蒙古文字母变体形式的自适应方法

Country Status (1)

Country Link
CN (1) CN107193787A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1105463A (zh) * 1994-07-15 1995-07-19 邓仁 汉字输入码的编码方法
CN1455324A (zh) * 2003-05-15 2003-11-12 孟克巴雅尔 蒙古文输入方法
CN101598977A (zh) * 2009-06-15 2009-12-09 内蒙古蒙科立软件有限责任公司 一种基于阿拉伯字母名义形式编码的文字输入方法
CN101604308A (zh) * 2009-07-24 2009-12-16 内蒙古蒙科立软件有限责任公司 蒙古文字母变体形式编码技术
WO2012071630A1 (en) * 2010-12-02 2012-06-07 Accessible Publishing Systems Pty Ltd Text conversion and representation system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1105463A (zh) * 1994-07-15 1995-07-19 邓仁 汉字输入码的编码方法
CN1455324A (zh) * 2003-05-15 2003-11-12 孟克巴雅尔 蒙古文输入方法
CN101598977A (zh) * 2009-06-15 2009-12-09 内蒙古蒙科立软件有限责任公司 一种基于阿拉伯字母名义形式编码的文字输入方法
CN101604308A (zh) * 2009-07-24 2009-12-16 内蒙古蒙科立软件有限责任公司 蒙古文字母变体形式编码技术
WO2012071630A1 (en) * 2010-12-02 2012-06-07 Accessible Publishing Systems Pty Ltd Text conversion and representation system

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
WO2020186778A1 (zh) 错词纠正方法、装置、计算机装置及存储介质
Moran et al. The Unicode Cookbook for Linguists: Managing writing systems using orthography profiles
CN109389968B (zh) 基于双音节混搭的波形拼接方法、装置、设备及存储介质
CN105117376B (zh) 多模式输入法编辑器
US8321197B2 (en) Method and process for performing category-based analysis, evaluation, and prescriptive practice creation upon stenographically written and voice-written text files
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
JP2014504398A (ja) テキスト変換及び表現システム
CN104239289B (zh) 音节划分方法和音节划分设备
CN110147549A (zh) 用于执行文本纠错的方法和系统
CN111310447A (zh) 语法纠错方法、装置、电子设备和存储介质
US8543382B2 (en) Method and system for diacritizing arabic language text
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
US8763905B2 (en) Data processing systems applying optical identification devices and related data processing and operation methods and computer program products thereof
US10896624B2 (en) System and methods for transforming language into interactive elements
CN111710328A (zh) 语音识别模型的训练样本选取方法、装置及介质
CN107193787A (zh) 一种蒙古文字母变体形式的自适应方法
CN113409761B (zh) 语音合成方法、装置、电子设备以及计算机可读存储介质
CN105045410A (zh) 一种形式化拼音和汉字对应识别的方法
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN113204966A (zh) 语料增广方法、装置、设备及存储介质
CN101604308A (zh) 蒙古文字母变体形式编码技术
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
CN111090720A (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination