CN106156006B - 藏文字成分分析方法、藏文排序方法以及对应装置 - Google Patents

藏文字成分分析方法、藏文排序方法以及对应装置 Download PDF

Info

Publication number
CN106156006B
CN106156006B CN201610528753.9A CN201610528753A CN106156006B CN 106156006 B CN106156006 B CN 106156006B CN 201610528753 A CN201610528753 A CN 201610528753A CN 106156006 B CN106156006 B CN 106156006B
Authority
CN
China
Prior art keywords
tibetan language
word
finite
tibetan
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610528753.9A
Other languages
English (en)
Other versions
CN106156006A (zh
Inventor
尼玛扎西
完么扎西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610528753.9A priority Critical patent/CN106156006B/zh
Priority to US15/338,509 priority patent/US20180011836A1/en
Publication of CN106156006A publication Critical patent/CN106156006A/zh
Application granted granted Critical
Publication of CN106156006B publication Critical patent/CN106156006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers

Abstract

本发明公开了一种藏文字成分分析方法、藏文排序方法以及对应装置,涉及自然语言处理领域。为解决现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题而发明。本发明提供的技术方案包括:S10、获取待分析的藏文文本;S20、将所述藏文文本中藏文字作为预设有限状态自动机群组的输入;S30、当所述有限状态自动机群组中目标有限状态自动机确定所述藏文文本中藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分。

Description

藏文字成分分析方法、藏文排序方法以及对应装置
技术领域
本发明涉及自然语言处理领域,尤其涉及一种藏文字成分分析方法、藏文排序方法以及对应装置。
背景技术
同其他语种一样,计算机藏文自动排序也被广泛的应用于藏文信息技术的各个领域,包括藏文字典和词典排序、信息检索、文本排序等。自20世纪80年代初藏文信息技术研究开展以来,计算机藏文自动排序研究工作从未停止过。随着藏文信息技术的发展,现有技术中一般采用藏文自动排序算法对藏文进行排序。
然而,由于现有的排序算法和模型不完善,且过于繁复容易出错,因此现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用。
发明内容
本发明提供一种藏文字成分分析方法、藏文排序方法以及对应装置,具有通用性和兼容性,能够方便计算机藏文自动排序的使用。
一方面,提供一种藏文字成分分析方法,包括:S10、获取待分析的藏文文本;S20、将所述藏文文本中藏文字作为预设有限状态自动机群组的输入;S30、当所述有限状态自动机群组中目标有限状态自动机确定所述藏文文本中藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
另一方面,提供一种藏文排序方法,包括:S10、获取待排序的至少两个藏文字;S20、分别将所述待排序的至少两个藏文字作为预设有限状态自动机群组的输入;S30、当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;S40、根据所述至少两个藏文字的组成成分,对所述至少两个藏文字进行排序,得到排序结果;所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
又一方面,提供一种藏文排序方法,包括:S10、获取待排序的至少两个藏文词;S20、分别获取所述至少两个藏文词中的藏文字;S30、分别将所述至少两个藏文词中的藏文字作为预设有限状态自动机群组的输入;S40、当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;S50、根据所述至少两个藏文词中每个藏文字的组成成分,对所述至少两个藏文词进行排序,得到排序结果;所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
再一方面,提供一种藏文字成分分析装置,包括:
文本获取模块,用于获取待分析的藏文文本;
文本输入模块,与所述文本获取模块相连,用于将所述藏文文本中藏文字作为预设有限状态自动机群组的输入;
成分分析模块,与所述文本输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定所述藏文文本中藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
再一方面,提供一种藏文排序装置,包括:
藏文字获取模块,用于获取待排序的至少两个藏文字;
藏文字输入模块,与所述藏文字获取模块相连,用于分别将所述待排序的至少两个藏文字作为预设有限状态自动机群组的输入;
成分分析模块,与所述藏文字输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
排序模块,与所述成分分析模块相连,用于根据所述至少两个藏文字的组成成分,对所述至少两个藏文字进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
再一方面,提供一种藏文排序装置,包括:
藏文词获取模块,用于获取待排序的至少两个藏文词;
藏文字获取模块,与所述藏文词获取模块相连,用于分别获取所述至少两个藏文词中的藏文字;
藏文字输入模块,与所述藏文字获取模块相连,用于分别将所述至少两个藏文词中的藏文字作为预设有限状态自动机群组的输入;
成分分析模块,与所述藏文字输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
排序模块,与所述成分分析模块相连,用于根据所述至少两个藏文词中每个藏文字的组成成分,对所述至少两个藏文词进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
本发明具有如下有益效果:通过将待分析的藏文文本作为有限状态自动机群组的输入,并根据确定藏文字正确的目标有限状态自动机获取藏文字的组成成分,从而实现藏文字成分分析并能进一步根据藏文字的组成成分实现藏文排序。由于有限状态自动机群组与藏文拼写形式文法对应,因此本发明实施例提供的技术方案解决了现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题。
附图说明
图1为本发明实施例1提供的藏文字成分分析方法的流程图;
图2为本发明实施例2提供的藏文排序方法的流程图;
图3为本发明实施例3提供的藏文排序方法的流程图;
图4为本发明实施例4提供的藏文字成分分析装置的结构示意图;
图5为本发明实施例5提供的藏文排序装置的结构示意图;
图6为本发明实施例6提供的藏文排序装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。但这些例举性实施方式的用途和目的仅用来例举本发明,并非对本发明的实际保护范围构成任何形式的任何限定,更非将本发明的保护范围局限于此。
实施例1
如图1所示,本发明实施例提供一种藏文字成分分析方法,包括:
步骤101,获取待分析的藏文文本。
在本实施例中,通过步骤101获取的藏文文本可以仅包含一个藏文字,也可以包含多个藏文字,在此不做限制。具体的,当该藏文文本包含多个藏文字时,可以首先将获取的藏文文本以字为单位进行切分,得到至少一个藏文字;该切分方式可以为按照藏文字分符、垂形符、双垂符和空格符将获取的藏文文本以字为单位进行切分。
特别的,当藏文文本包含多个藏文字时,还可能是由多个藏文字组成的藏文词,此时可以根据特定分隔符等标志对获取的藏文文本进行分割,在此不做限制。
步骤102,将藏文文本中的藏文字作为预设有限状态自动机群组的输入。
在本实施例中,当藏文文本仅包含一个藏文字时,步骤102具体为将该藏文字作为预设有限状态自动机群组的输入;当藏文文本包含多个藏文字时,步骤102具体为分别将藏文文本中的藏文字作为预设有限状态自动机群组的输入。
在本实施例中,所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
本实施例中,预设24种藏文拼写形式文法,每种藏文拼写形式文法对应一种有限状态自动机;将至少一个藏文字依次作为每个有限状态自动机的输入。藏文拼写形式文法Gi的终结符的有限集合是由30个藏文辅音字母、5个反写字母、4个元音符号和1个长元音符号构成的集合L的子集,是在语言的句子(属于某种结构的藏文字)中实际出现的字符(符号);藏文拼写形式文法Gi的非终结符集合包括在语言的句子中不实际出现,但在推导中起着变量作用,相当于语言中的语法范畴的词语。非终结符例如可以为汉语的语序主谓宾、藏语的语序主宾谓等语法的变量,但不会在具体的句子中出现,它是“隐形”的,起作用,但看不见。
终结符的有限集合和非终结符的有限集合中的元素与具体的藏文拼写形式文法对应。有限状态自动Mi的初始状态就是自动机刚开始工作时所处的状态,这个状态也就是自动机最初接收输入字符的状态;终止状态就是指自动机的最终状态。具体的,有限状态自动机群组中的自动机可以为确定型,也可以为非确定型;为便于理解和提高实现效率,本实施例提供的自动机均以确定型为例进行说明。
在本实施例中,有限状态自动机群组的获取过程可以包括:获取所述藏文拼写形式文法Gi,所述Gi=(Ti,Vi,Si,Pi);获取所述有限状态自动机Mi的终止状态标识Ei;判断所述藏文拼写形式文法Gi的产生式规则的有限集合Pi中是否包含产生式规则Si→λ;如果是,获取值为Si和Ei的Fi;如果不是,获取值为Ei的Fi;根据所述Ti、Vi、Si、Fi,获取所述有限状态自动机Mi;所述Ti为所述藏文拼写形式文法Gi的终结符的有限集合;所述Si为所述藏文拼写形式文法Gi的起始符,所述Si∈Vi;所述λ为空字符;所述有限状态自动机Mi的输入字符的有限集合Σi与所述藏文拼写形式文法Gi的终结符的有限集合Ti等价;所述有限状态自动机Mi的初始状态qi与所述藏文拼写形式文法Gi的起始符Si等价。
其中,获取该藏文拼写形式文法的过程包括:获取终结符的有限集合Ti,所述Ti是集合L的子集,所述集合L包括30个藏文辅音字母、5个反写字母、4个元音符号和1个长元音符号;获取非终结符的有限集合Vi;获取起始符号Si,所述Si∈Vi;获取产生式规则的有限集合Pi;根据所述Ti、Vi、Si和Pi获取对应的藏文拼写形式文法Gi。其中,获取产生式规则的有限集合Pi的过程可以包括:首先获取预设的藏文拼写文法形式化描述体系;然后根据所述藏文拼写文法形式化描述体系,获取所述产生式规则的有限集合Pi
在本实施例中,预设的藏文拼写文法形式化描述体系可以根据集合论的方法建立,具体形式如下:
藏文拼写文法1:集合Root={b1,b2,b3,b4,b5,…,b30,b31,b31,b31,b34,b35}的元素分别对应30个藏文辅音字母和5个藏文反写字母,则对于任意bi∈Root对应的藏文字符可构成藏文字的基字。
藏文拼写文法2:对于集合Prefix={b3,b11,b15,b16,b23},则任意bi∈Prefix,(j=3,11,15,16,23)对应的藏文字符可构成藏文字的前加字。
藏文拼写文法3:对于集合Suffix={b3,b4,b11,b12,b15,b16,b23,b25,b26,b28},则任意bi∈Suffix,(j=3,4,11,12,15,16,23,25,26,28)对应的藏文字符可构成藏文字的后加字。
藏文拼写文法4:对于集合Postfix={b11,b28},则任意bi∈Postfix,(j=11,28)对应的藏文字符可构成藏文字的再后加字。
藏文拼写文法5:对于集合Superfix={b25,b26,b28},则任意bi∈Superfix,(j=25,26,28)对应的藏文字符可构成藏文字的上加字。
藏文拼写文法6:对于集合Subfix={b20,b24,b25,b26},则任意bi∈Subfix,(j=20,24,25,26)对应的藏文字符可构成藏文字的下加字。
藏文拼写文法7:对于集合Vowel=Vowel1{a},Vowel1={i,u,e,o}对应4个藏文元音字符,a代表藏文长元音字符。bj∈Root,(j=1,23,5,7,…,33,34,35)对应的藏文基字可与v∈Vowel对应的元音字符拼写,u和a只能写在辅音下方,其余3个元音字符只能写在辅音上方。
藏文拼写文法8:bj∈Root,(j=1,3,4,5,7,8,9,11,12,13,15,16,17,19,29)对应的藏文基字与bi∈Superfix,(i=25,26,28)对应的上加字拼写时,须满足如下文法规则:
1.bj∈Root,(j=1,3,4,7,8,9,11,12,15,16,17,19)只能与b25∈Superfix拼写。
2.bj∈Root,(j=1,3,4,5,7,9,11,13,15,29)只能与b26∈Superfix拼写。
3.bj∈Root,(j=1,3,4,8,9,11,12,13,15,16,17)只能与b28∈Superfix拼写。
藏文拼写文法9:bj∈Root,(j=1,2,3,8,9,10,11,13,14,15,16,18,21,22,25,26,27,28,29)对应的藏文基字与bi∈Subfix,(i=20,24,25,26)对应的下加字拼写时,须满足如下文法规则:
1.bj∈Root,(j=1,2,3,8,11,18,21,22,25,26,27,29)只能与b20∈Subfix拼写。
2.bj∈Root,(j=1,2,3,13,14,15,16)只能与b24∈Subfix拼写。
3.bj∈Root,(j=1,2,3,9,10,11,13,14,15,16,28,29)只能与b25∈Subfix拼写。
4.bj∈Root,(j=1,3,15,22,25,28)只能与b26∈Subfix拼写。
5.bj∈Root,(j=29)只能与b14∈Subfix拼写。
(说明:为了拼写其他语言中的[f]音,现代藏文中出现了b29与b14拼写的形式。按照传统藏文拼写文法,b29不能作为上加字,b14也不能作为下加字,因此,作为一种特殊的情况,b29与b14拼写时,我们将b14作为“下加字”看待。)
藏文拼写文法10:bi∈Root,(i=1,3,12,13,15,16,17)对应的藏文基字同时与bj∈Superfix,(j=25,28)对应的上加字和bk∈Subfix,(k=20,24,25)对应的下加字拼写时,须满足如下文法规则:
1.b1∈Root与b25∈Superfix拼写时,可同时与b24∈Subfix拼写;与b28∈Superfix拼写时,可同时与bk∈Subfix,(k=24,25)拼写。
2.b3∈Root与b25∈Superfix拼写时,可同时与b24∈Subfix拼写;与b28∈Superfix拼写时,可同时与bk∈Subfix,(k=24,25)拼写。
3.b12∈Root与b28∈Superfix拼写时,可同时与b25∈Subfix拼写。
4.b13∈Root与b28∈Superfix拼写时,可同时与bk∈Subfix,(k=24,25)拼写。
5.b15∈Root与b28∈Superfix拼写时,可同时与bk∈Subfix,(k=24,25)拼写。
6.b16∈Root与b25∈Superfix拼写时,可同时与b24∈Subfix拼写;与b28∈Superfix拼写时,可同时与bk∈Subfix,(k=24,25)拼写。
7.b17∈Root与b25∈Superfix拼写时,可同时与b20∈Subfix拼写。
藏文拼写文法11:bi∈Root,(i=1,3,4,7,8,9,11,12,17,19)对应的藏文基字同时与b15∈Prefix对应的前加字和bj∈Superfix,(j=25,26,28)对应的上加字拼写时,须满足如下文法规则:
1.bi∈Root,(i=1,3,4,7,8,9,11,12,17,19)可与b25∈Superfix拼写。
2.bi∈Root,(i=9,11)可与b26∈Superfix拼写。
3.bi∈Root,(i=1,3,4,8,9,11,12,17)可与b28∈Superfix拼写。
藏文拼写文法12:bi∈Root,(i=1,2,3,11,13,14,15,16,22,25,28)对应的藏文基字同时与bj∈Prefix,(j=11,15,16,23)对应的前加字和bk∈Subfix,(k=20,24,25,26)对应的下加字拼写时,须满足如下文法规则:
1.bi∈Root,(i=1,3,13,15,16)可与b11∈Prefix和b24∈Subfix拼写。
2.bi∈Root,(i=1,3,13,15)可与b11∈Prefix和b25∈Subfix拼写。
3.bi∈Root,(i=1,3)可与b15∈Prefix和b24∈Subfix拼写。
4.bi∈Root,(i=1,3,28)可与b15∈Prefix和b25∈Subfix拼写。
5.bi∈Root,(i=1,22,25,28)可与b15∈Prefix和b26∈Subfix拼写。
6.bi∈Root,(i=2,3)可与b16∈Prefix和bk∈Subfix,(k=24,25)拼写。
7.bi∈Root,(i=2,3,14,15)可与b23∈Prefix和b24∈Subfix拼写。
8.bi∈Root,(i=2,3,11,14,15)可与b23∈Prefix和b25∈Subfix拼写。
藏文拼写文法13:bi∈Root,(i=1,3)对应的藏文基字与b15∈Prefix对应的前加字和bj∈Superfix,(i=25,28)对应的上加字及bk∈Subfix,(i=24,25)对应的下加字拼写时,须满足如下文法规则:
1.bi∈Root,(i=1,3)可与b15∈Prefix和b25∈Superfix及b24∈Subfix拼写。
2.bi∈Root,(i=1,3)可与b15∈Prefix和b28∈Superfix及b25∈Subfix拼写。
3.bi∈Root,(i=1,3)可与b15∈Prefix和b28∈Superfix及b24∈Subfix拼写。
藏文拼写文法14:bi∈Root,(i=1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,21,22,24,27,28)对应的藏文基字与bj∈Prefix,(j=3,11,15,16,23)对应的前加字拼写时,须同时与v∈Vowel,Vowel={i,u,e,o}对应的元音符号,或与bk∈Suffix,(k=3,4,11,12,15,16,23,25,26,28)对应的一个后加字拼写,并满足如下文法规则:
1.bi∈Root,(i=5,8,9,11,12,17,21,22,24,27,28)仅能与b3∈Prefix拼写。
2.bi∈Root,(i=1,3,4,13,15,16)仅能与b11∈Prefix拼写。
3.bi∈Root,(i=1,3,5,9,11,17,21,22,27,28)仅能与b15∈Prefix拼写。
4.bi∈Root,(i=2,3,4,6,7,8,10,11,12,18,19)仅能与b16∈Prefix拼写。
5.bi∈Root,(i=2,3,6,7,10,11,14,15,18,19)仅能与b23∈Prefix拼写。
藏文拼写文法15:bj∈Root,(j=1,2,3,4,5,6,7,8,9,10,…,21,22,23,24,25,26,27,28,29,30)对应的藏文基字可以与任意bi∈Suffix,(i=3,4,11,12,15,16,23,25,26,28)对应的后加字拼写。
藏文拼写文法16:藏文再后加字的使用只与后加字有关。bi∈Suffix,(i=3,4,12,15,16,25,26)对应的藏文后加字可与bj∈Postfix,(j=11,28)对应的再后加字拼写,并有如下文法规则:
1.b11∈Postfix仅能与bi∈Suffix,(i=12,25,26)拼写。
2.b28∈Postfix仅能与bi∈Suffix,(i=3,4,15,16)拼写。
藏文拼写文法17:bi∈Root,(i=3,11,14)对应的藏文基字与bj∈Subfix,(j=24,25)对应的藏文下加字拼写时,可同时与b20∈Subfix对应的藏文下加字拼写。具体规则如下:
1.bi∈Root,(i=3,11)与b25∈Subfix拼写时,可同时与b20∈Subfix拼写。
2.b14∈Root与b24∈Subfix拼写时,可同时与b20∈Subfix拼写。
藏文拼写文法18:b29∈Root对应的藏文辅音字母可与b14∈Root对应的藏文辅音字母拼写,且b14∈Root位于b29∈Root对应的下方。
藏文拼写文法19:b29∈Root对应的藏文辅音字母与b14∈Root对应的藏文辅音字母拼写时,可同时与bi∈Suffix,(i=3,4,11,12,15,16,23,25,26,28)对应的藏文后加字拼写。
藏文拼写文法20:无后加字的藏文字可以与b23∈Root对应的藏文辅音字母拼写,此时b23∈Root对应的藏文辅音字母须与v∈Vowel,Vowel={i,u,e,o}对应的元音符号(i,e,u,o)拼写。
藏文拼写文法21:除了文法17,18,19和20的特殊拼写之外,藏文字按照前加字、上加字、基字、下加字、元音符号、后加字以及再后加字的顺序拼写。
在本实施例中,Ti为所述藏文拼写形式文法Gi的终结符的有限集合;所述Si为所述藏文拼写形式文法Gi的起始符,所述Si∈Vi;所述λ为空字符;有限状态自动机Mi的输入字符的有限集合Σi与所述藏文拼写形式文法Gi的终结符的有限集合Ti等价;所述有限状态自动机Mi的初始状态qi与所述藏文拼写形式文法Gi的起始符Si等价。其中,Si代表文法Gi产生的语言L(Gi)中任何一个可能的句子(在我们的应用里就是一个藏文字),因而Si是一个特殊的非终结符。
具体的,该24种藏文拼写形式文法G1~G24的具体形式如下:
藏文拼写形式文法G1:藏文基字与元音符号拼写形式文法G1是一个四元组(T1,V1,S1,P1),其中:
(1)终结符
T1=TB∪To,其中:
TB={b1,b2,b3,b4,b5,…,b35},其元素对应藏文辅音字符;To={i,u,e,o,a},其元素对应藏文元音字符;
(2)非终结符集合
V1={S1,B1,1,B1,2};
(3)S1为V1中的一个非终结符,且为起始符号;
(4)文法G1的产生式集合P1={
S1→b1∣b2∣b3∣b4∣b5∣…∣b30∣b31∣b32∣b33∣b34∣b35
S1→b1B1,1∣b2B1,1∣b3B1,1∣b4B1,1∣b5B1,1∣…∣b30B1,1
S1→b31B1,2∣b32B1,2∣b33B1,2∣b34B1,2∣b35B1,2
B1,1→i∣u∣e∣o∣a,
B1,2→i∣u∣e∣o}
对藏文拼写结构2有:
藏文拼写形式文法G2:藏文上加字、基字及元音拼写形式文法G2是一个四元组(T2,V2,S2,P2),其中:
(1)终结符
T2=TB∪To,其中:
TB={b1,b3,b4,b5,b7,b8,b9,b11,b12,b13,b15,b16,b17,b19,b25,b26,b28,b29},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V2={S2,B2,1,B2,2,B2,3,B2,4};
(3)S2为V2中的一个非终结符,且为起始符号;
(4)文法G2的产生式集合P2={
S2→b25B2,1∣b26B2,2∣b28B2,3
B2,1→b1∣b3∣b4∣b7∣b8∣b9∣b11∣b12∣b15∣b16∣b17∣b19
B2,1→b1B2,4∣b3B2,4∣b4B2,4∣b7B2,4∣b8B2,4∣b9B2,4∣b11B2,4∣b12B2,4∣b15B2,4∣b16B2,4∣b17B2,4∣b19B2,4
B2,2→b1∣b3∣b4∣b5∣b7∣b9∣b11∣b13∣b15∣b29
B2,2→b1B2,4∣b3B2,4∣b4B2,4∣b5B2,4∣b7B2,4∣b9B2,4∣b11B2,4∣b13B2,4∣b15B2,4∣b29B2,4
B2,3→b1∣b3∣b4∣b8∣b9∣b11∣b12∣b13∣b15∣b16∣b17
B2,3→b1B2,4∣b3B2,4∣b4B2,4∣b8B2,4∣b9B2,4∣b11B2,4∣b12B2,4∣b13B2,4∣b15B2,4∣b16B2,4∣b17B2,4
B2,4→i∣u∣e∣o}
对藏文拼写结构3有:
藏文拼写形式文法G3:藏文基字、下加字及元音符号拼写形式文法G3是一个四元组(T3,V3,S3,P3),其中:
(1)终结符
T3=TB∪To,其中:
TB={b1,b2,b3,b8,b9,b10,b11,b13,b14,b15,b16,b18,b20,b21,b22,b24,b25,b26,b27,b28,b29},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V3={S3,B3,1,B3,2,B3,3,B3,4,B3,5,B3,6,B3,7,B3,8,B3,9,B3,10};
(3)S3为V3中的一个非终结符,且为起始符号;
(4)文法G3的产生式集合P3={
S3→b1B3,1∣b3B3,1
S3→b2B3,2
S3→b11B3,3∣b29B3,3
S3→b8B3,4∣b18B3,4∣b21B3,4∣b26B3,4∣b27B3,4
S3→b9B3,5∣b10B3,5
S3→b13B3,6∣b14B3,6∣b16B3,6
S3→b22B3,7∣b25B3,7
S3→b28B3,8
S3→b15B3,9
B3,1→b20∣b24∣b25∣b26
B3,1→b20B3,10∣b24B3,10∣b25B3,10∣b26B3,10
B3,2→b20∣b24∣b25
B3,2→b20B3,10∣b24B3,10∣b25B3,10
B3,3→b20∣b25
B3,3→b20B3,10∣b25B3,10
B3,4→b20
B3,4→b20B3,10
B3,5→b25
B3,5→b25B3,10
B3,6→b24∣b25
B3,6→b24B3,10∣b25B3,10
B3,7→b20∣b26
B3,7→b20B3,10∣b26B3,10
B3,8→b25∣b26
B3,8→b25B3,10∣b26B3,10
B3,9→b24∣b25∣b26
B3,9→b24B3,10∣b25B3,10∣b26B3,10
B3,10→i∣u∣e∣o}
对藏文拼写结构4有:
藏文拼写形式文法G4:上加字、藏文基字、下加字及元音符号拼写形式文法G4是一个四元组(T4,V4,S4,P4),其中:
(1)终结符
T4=TB∪To,其中TB={b1,b3,b12,b13,b15,b16,b17,b20,b24,b25,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V4={S4,B4,1,B4,2,B4,3,B4,4,B4,5,B4,6,B4,7};
(3)S4为V4中的一个非终结符,且为起始符号;
(4)文法G4的产生式集合P4={
S4→b25B4,1
S4→b28B4,2
B4,1→b1B4,3∣b3B4,3∣b16B4,3
B4,1→b17B4,4
B4,2→b1B4,5∣b3B4,5∣b13B4,5∣b15B4,5∣b16B4,5
B4,2→b12B4,6
B4,3→b24
B4,3→b24B4,7
B4,4→b20
B4,4→b20B4,7
B4,5→b24∣b25
B4,5→b24B4,7∣b25B4,7
B4,6→b25
B4,6→b25B4,7
B4,7→i∣u∣e∣o}
对藏文拼写结构5有:
藏文拼写形式文法G5:藏文前加字、上加字、基字及元音符号拼写形式文法G5是一个四元组(T5,V5,S5,P5),其中:
(1)终结符
T5=TB∪To,其中:
TB={b1,b3,b4,b7,b8,b9,b11,b12,b15,b17,b19,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V5={S5,B5,1,B5,2,B5,3,B5,4,B5,5};
(3)S5为V5中的一个非终结符,且为起始符号;
(4)文法G5产生式集合P5={
S5→b15B5,1
B5,1→b28B5,2
B5,1→b26B5,3
B5,1→b25B5,4
B5,2→b1∣b3∣b4∣b8∣b9∣b11∣b12∣b17
B5,2→b1B5,5∣b3B5,5∣b4B5,5∣b8B5,5∣b9B5,5∣b11B5,5∣b12B5,5∣b17B5,5
B5,3→b9∣b11
B5,3→b9B5,5∣b11B5,5
B5,4→b1∣b3∣b4∣b7∣b8∣b9∣b11∣b12∣b17∣b19
B5,4→b1B5,5∣b3B5,5∣b4B5,5∣b7B5,5∣b8B5,5∣b9B5,5∣b11B5,5∣b12B5,5∣b17B5,5∣b19B5,5
B5,5→i∣u∣e∣o}
对藏文拼写结构6有:
藏文拼写形式文法G6:藏文前加字、基字、下加字及元音符号拼写形式文法G6是一个四元组(T6,V6,S6,P6),其中:
(1)终结符
T6=TB∪To,其中:
TB={b1,b2,b3,b11,b13,b14,b15,b16,b22,b23,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V6={S6,B6,1,B6,2,B6,3,B6,4,B6,5,B6,6,B6,7,B6,8,B6,9,B6,10,B6,11};
(3)S6为V6中的一个非终结符,且为起始符号;
(4)文法G6的产生式集合P6={
S6→b11B6,1∣b15B6,2∣b16B6,3∣b23B6,4
B6,1→b16B6,5
B6,1→b1B6,9∣b3B6,9∣b13B6,9∣b15B6,9
B6,2→b1B6,6
B6,2→b22B6,7∣b25B6,7
B6,2→b28B6,8
B6,2→b3B6,9
B6,3→b2B6,9∣b3B6,9
B6,4→b2B6,9∣b3B6,9∣b14B6,9∣b15B6,9
B6,4→b11B6,10
B6,5→b24
B6,5→b24B6,11
B6,6→b24∣b25∣b26
B6,6→b24B6,11∣b25B6,11∣b26B6,11
B6,7→b26
B6,7→b26B6,11
B6,8→b25∣b26
B6,8→b25B6,11∣b26B6,11
B6,9→b24∣b25
B6,9→b24B6,11∣b25B6,11
B6,10→b25
B6,10→b25B6,11
B6,11→i∣u∣e∣o}
对藏文拼写结构7有:
藏文拼写形式文法G7:藏文前加字、上加字、基字、下加字及元音符号拼写形式文法G7是一个四元组(T7,V7,S7,P7),其中:
(1)终结符
T7=TB∪To,其中:
TB={b1,b3,b15,b24,b25,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V7={S7,B7,1,B7,2,B7,3,B7,4,B7,5,B7,6};
(3)S7为V7中的一个非终结符,且为起始符号;
(4)文法G7的产生式集合P7={
S7→b15B7,1
B7,1→b28B7,2
B7,1→b25B7,3
B7,2→b1B7,4∣b3B7,4
B7,3→b1B7,5∣b3B7,5
B7,4→b24∣b25
B7,4→b24B7,6∣b25B7,6
B7,5→b24
B7,5→b24B7,6
B7,6→i∣u∣e∣o}
对藏文拼写结构8有:
藏文拼写形式文法G8:藏文前加字、基字及元音符号拼写形式文法G8是一个四元组(T8,V8,S8,P8),其中:
(1)终结符
T8=TB∪To,其中:
TB={b1,b2,b3,b4,b5,b6,b7,b8,b9,b10,b11,b12,b13,b14,b15,b16,b17,b18,b19,b21,b22,b23,b24,b27,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V8={S8,B8,1,B8,2,B8,3,B8,4,B8,5,B8,6};
(3)S8为V8中的一个非终结符,且为起始符号;
(4)文法G8的产生式集合P8={
S8→b3B8,1∣b11B8,2∣b15B8,3∣b16B8,4∣b23B8,5
B8,1→b5B8,6∣b8B8,6∣b9B8,6∣b11B8,6∣b12B8,6∣b17B8,6∣b21B8,6∣b22B8,6∣b24B8,6∣b27B8,6∣b28B8,6
B8,2→b1B8,6∣b3B8,6∣b4B8,6∣b13B8,6∣b15B8,6∣b16B8,6
B8,3→b1B8,6∣b3B8,6∣b5B8,6∣b9B8,6∣b11B8,6∣b17B8,6∣b21B8,6∣b22B8,6∣b27B8,6∣b28B8,6
B8,4→b2B8,6∣b3B8,6∣b4B8,6∣b6B8,6∣b7B8,6∣b8B8,6∣b10B8,6∣b11B8,6∣b12B8,6∣b18B8,6∣b19B8,6
B8,5→b2B8,6∣b3B8,6∣b6B8,6∣b7B8,6∣b10B8,6∣b11B8,6∣b14B8,6∣b15B8,6∣b18B8,6∣b19B8,6
B8,6→i∣u∣e∣o}
对藏文拼写结构9有:
藏文拼写形式文法G9:藏文前加字、基字、元音字符及后加字拼写形式文法G9是一个四元组(T9,V9,S9,P9),其中:
(1)终结符
T9=TB∪To,其中:
TB={b1,b2,b3,b4,b5,b6,b7,b8,b9,b10,b11,b12,b13,b14,b15,b16,b17,b18,b19,b21,b22,b23,b24,b25,b26,b27,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V9={S9,B9,1,B9,2,B9,3,B9,4,B9,5,B9,6,B9,7};
(3)S9为V9中的一个非终结符,且为起始符号;
(4)文法G9产生式集合为:P9={
S9→b3B9,1∣b11B9,2∣b15B9,3∣b16B9,4∣b23B9,5
B9,1→b5B9,7∣b8B9,7∣b9B9,7∣b11B9,7∣b12B9,7∣b17B9,7∣b21B9,7∣b22B9,7∣b24B9,7∣b27B9,7∣b28B9,7
B9,1→b5B9,6∣b8B9,6∣b9B9,6∣b11B9,6∣b12B9,6∣b17B9,6∣b21B9,6∣b22B9,6∣b24B9,6∣b27B9,6∣b28B9,6
B9,2→b1B9,7∣b3B9,7∣b4B9,7∣b13B9,7∣b15B9,7∣b16B9,7
B9,2→b1B9,6∣b3B9,6∣b4B9,6∣b13B9,6∣b15B9,6∣b16B9,6
B9,3→b1B9,7∣b3B9,7∣b5B9,7∣b9B9,7∣b11B9,7∣b17B9,7∣b21B9,7∣b22B9,7∣b27B9,7∣b28B9,7
B9,3→b1B9,6∣b3B9,6∣b5B9,6∣b9B9,6∣b11B9,6∣b17B9,6∣b21B9,6∣b22B9,6∣b27B9,6∣b28B9,6
B9,4→b2B9,7∣b3B9,7∣b4B9,7∣b6B9,7∣b7B9,7∣b8B9,7∣b10B9,7∣b11B9,7∣b12B9,7∣b18B9,7∣b19B9,7
B9,4→b2B9,6∣b3B9,6∣b4B9,6∣b6B9,6∣b7B9,6∣b8B9,6∣b10B9,6∣b11B9,6∣b12B9,6∣b18B9,6∣b19B9,6
B9,5→b2B9,7∣b3B9,7∣b6B9,7∣b7B9,7∣b10B9,7∣b11B9,7∣b14B9,7∣b15B9,7∣b18B9,7∣b19B9,7
B9,5→b2B9,6∣b3B9,6∣b6B9,6∣b7B9,6∣b10B9,6∣b11B9,6∣b14B9,6∣b15B9,6∣b18B9,6∣b19B9,6
B9,6→iB9,7∣uB9,7∣eB9,7∣oB9,7
B9,7→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构10有:
藏文拼写形式文法G10:藏文前加字、上加字、基字、元音符号及后加字拼写形式文法G10是一个四元组(T10,V10,S10,P10),其中:
(1)终结符
T10=TB∪To,其中:
TB={b1,b3,b4,b7,b8,b9,b11,b12,b15,b16,b17,b19,b23,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V10={S10,B10,1,B10,2,B10,3,B10,4,B10,5,B10,6};
(3)S10为V10中的一个非终结符,且为起始符号;
(4)文法G10产生式集合为:P10={
S10→b15B10,1
B10,1→b28B10,2∣b26B10,3∣b25B10,4
B10,2→b1B10,6∣b3B10,6∣b4B10,6∣b8B10,6∣b9B10,6∣b11B10,6∣b12B10,6∣b17B10,6
B10,2→b1B10,5∣b3B10,5∣b4B10,5∣b8B10,5∣b9B10,5∣b11B10,5∣b12B10,5∣b17B10,5
B10,3→b9B10,6∣b11B10,6
B10,3→b9B10,5∣b11B10,5
B10,4→b1B10,6∣b3B10,6∣b4B10,6∣b7B10,6∣b8B10,6∣b9B10,6∣b11B10,6∣b12B10,6∣b17B10,6∣b19B10,6
B10,4→b1B10,5∣b3B10,5∣b4B10,5∣b7B10,5∣b8B10,5∣b9B10,5∣b11B10,5∣b12B10,5∣b17B10,5∣b19B10,5
B10,5→iB10,6∣uB10,6∣eB10,6∣oB10,6
B10,6→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构11有:
藏文拼写形式文法G11:藏文前加字、基字、下加字、元音符号及后加字拼写形式文法G11是四元组(T11,V11,S11,P11),其中:
(1)终结符
T11=TB∪To,其中:
TB={b1,b2,b3,b4,b11,b12,b13,b14,b15,b16,b22,b23,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V11={S11,B11,1,B11,2,B11,3,B11,4,B11,5,B11,6,B11,7,B11,8,B11,9,B11,10,B11,11,B11,12};
(3)S11为V11中的一个非终结符,且为起始符号;
(4)文法G11产生式集合为:P11={
S11→b11B11,1∣b15B11,2∣b16B11,3∣b23B11,4
B11,1→b16B11,5
B11,1→b1B11,9∣b3B11,9∣b13B11,9∣b15B11,9
B11,2→b1B11,6
B11,2→b22B11,7∣b25B11,7
B11,2→b28B11,8
B11,2→b3B11,9
B11,3→b2B11,9∣b3B11,9
B11,4→b2B11,9∣b3B11,9∣b14B11,9∣b15B11,9
B11,4→b11B11,10
B11,5→b24B12
B11,5→b24B11,11
B11,6→b24B11,12∣b25B11,12∣b26B11,12
B11,6→b24B11,11∣b25B11,11∣b26B11,11
B11,7→b26B11,12
B11,7→b26B11,11
B11,8→b25B11,12∣b26B11,12
B11,8→b25B11,11∣b26B11,11
B11,9→b24B11,12∣b25B11,12
B11,9→b24B11,11∣b25B11,11
B11,10→b25B11,12
B11,10→b25B11,11
B11,11→iB11,12∣uB11,12∣eB11,12∣oB11,12
B11,12→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构12有:
藏文拼写形式文法G12:藏文前加字、上加字、基字、下加字、元音符号及后加字拼写形式文法G12是一个四元组(T12,V12,S12,P12),其中:
(1)终结符
T12=TB∪To,其中:
TB={b1,b3,b4,b11,b12,b15,b16,b23,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V12={S12,B12,1,B12,2,B12,3,B12,4,B12,5,B12,6,B12,7};
(3)S12为V12中的一个非终结符,且为起始符号;
(4)文法G12的产生式集合P12={
S12→b15B12,1
B12,1→b28B12,2
B12,1→b25B12,3
B12,2→b1B12,4∣b3B12,4
B12,3→b1B12,5∣b3B12,5
B12,4→b24B12,7∣b25B12,7
B12,4→b24B12,6∣b25B12,6
B12,5→b24B12,7
B12,5→b24B12,6
B12,6→iB12,7∣uB12,7∣eB12,7∣oB12,7
B12,7→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构13有:
藏文拼写形式文法G13:藏文前加字、基字、元音符号、后加字及再后加字拼写形式文法G13是一个四元组(T13,V13,S13,P13),其中:
(1)终结符
T13=TB∪To,其中:
TB={b1,b2,b3,b4,b5,b6,b7,b8,b9,b10,b11,b12,b13,b14,b15,b16,b17,b18,b19,b21,b22,b23,b24,b25,b26,b27,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V13={S13,B13,1,B13,2,B13,3,B13,4,B13,5,B13,6,B13,7,B13,8,B13,9};
(3)S13为V13中的非终结符,且为起始符号;
(4)文法G13的产生式集合P13={
S13→b3B13,1∣b11B13,2∣b15B13,3∣b16B13,4∣b23B13,5
B13,1→b5B13,6∣b8B13,6∣b9B13,6∣b11B13,6∣b12B13,6∣b17B13,6∣b21B13,6∣b22B13,6∣b24B13,6∣b27B13,6∣b28B13,6
B13,2→b1B13,6∣b3B13,6∣b4B13,6∣b13B13,6∣b15B13,6∣b16B13,6
B13,3→b1B13,6∣b3B13,6∣b5B13,6∣b9B13,6∣b11B13,6∣b17B13,6∣b21B13,6∣b22B13,6∣b27B13,6∣b28B13,6
B13,4→b2B13,6∣b3B13,6∣b4B13,6∣b6B13,6∣b7B13,6∣b8B13,6∣b10B13,6∣b11B13,6∣b12B13,6∣b18B13,6∣b19B13,6
B13,5→b2B13,6∣b3B13,6∣b6B13,6∣b7B13,6∣b10B13,6∣b11B13,6∣b14B13,6∣b15B13,6∣b18B13,6∣b19B13,6
B13,6→iB13,7∣uB13,7∣eB13,7∣oB13,7
B13,6→b3B13,8∣b4B13,8∣b15B13,8∣b16B13,8
B13,6→b12B13,9∣b25B13,9∣b26B13,9
B13,7→b3B13,8∣b4B13,8∣b15B13,8∣b16B13,8
B13,7→b12B13,9∣b25B13,9∣b26B13,9
B13,8→b28
B13,9→b11}
对藏文拼写结构14有:
藏文拼写形式文法G14:藏文前加字、上加字、基字、元音符号、后加字及再后加字拼写形式文法G14是一个四元组(T14,V14,S14,P14),其中:
(1)终结符
T14=TB∪To,其中:
TB={b1,b3,b4,b11,b12,b13,b15,b16,b17,b20,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V14={S14,B14,1,B14,2,B14,3,B14,4,B14,5,B14,6,B14,7,B14,8};
(3)S14为V14中的非终结符,且为起始符号;
(4)文法G14的产生式集合为:P14={
S14→b15B14,1
B14,1→b28B14,2∣b26B14,3∣b25B14,4
B14,2→b1B14,5∣b3B14,5∣b4B14,5∣b8B14,5∣b9B14,5∣b11B14,5∣b12B14,5∣b17B14,5
B14,3→b9B14,5∣b11B14,5
B14,4→b1B14,5∣b3B14,5∣b4B14,5∣b7B14,5∣b8B14,5∣b9B14,5∣b11B14,5∣b12B14,5∣b17B14,5∣b19B14,5
B14,5→iB14,6∣uB14,6∣eB14,6∣oB14,6
B14,5→b3B14,7∣b4B14,7∣b15B14,7∣b16B14,7
B14,5→b12B14,8∣b25B14,8∣b26B14,8
B14,6→b3B14,7∣b4B14,7∣b15B14,7∣b16B14,7
B14,6→b12B14,8∣b25B14,8∣b26B14,8
B14,7→b28
B14,8→b11}
对藏文拼写结构15有:
藏文拼写形式文法G15:藏文前加字、基字、下加字、元音符号、后加字及再后加字拼写形式文法G15是一个四元组(T15,V15,S15,P15),其中:
(1)终结符
T15=TB∪To,其中:
TB={b1,b2,b3,b4,b11,b12,b13,b14,b15,b16,b22,b23,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V15={S15,B15,1,B15,2,B15,3,B15,4,B15,5,B15,6,B15,7,B15,8,B15,9,B15,10,B15,11,B15,12,B15,13,B15,14};
(3)S15为V15中的一个非终结符,且为起始符号;
(4)文法G15的产生式集合为:P15={
S15→b11B15,1∣b15B15,2∣b16B15,3∣b23B15,4
B15,1→b16B15,5
B15,1→b1B15,9∣b3B15,9∣b13B15,9∣b15B15,9
B15,2→b1B15,6
B15,2→b22B15,7∣b25B15,7
B15,2→b28B15,8
B15,2→b3B15,9
B15,3→b2B15,9∣b3B15,9
B15,4→b2B15,9∣b3B15,9∣b14B15,9∣b15B15,9
B15,4→b11B15,10
B15,5→b24B15,11
B15,6→b24B15,11∣b25B15,11∣b26B15,11
B15,7→b26B15,11
B15,8→b25B15,11∣b26B15,11
B15,9→b24B15,11∣b25B15,11
B15,10→b25B15,11
B15,11→iB15,12∣uB15,12∣eB15,12∣oB15,12
B15,11→b3B15,13∣b4B15,13∣b15B15,13∣b16B15,13
B15,11→b12B15,4∣b25B15,14∣b26B15,14
B15,12→b3B15,13∣b4B15,13∣b15B15,13∣b16B15,13
B15,12→b12B15,14∣b25B15,14∣b26B15,14
B15,13→b28
B15,14→b11}
对藏文拼写结构16有:
藏文拼写形式文法G16:藏文前加字、上加字、基字、下加字、元音符号、后加字及再后加字拼写构成的藏文字的文法G16是一个四元组(T16,V16,S16,P16),其中:
(1)终结符
T16=TB∪To;其中:
TB={b1,b3,b4,b11,b12,b15,b16,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V16={S16,B16,1,B16,2,B16,3,B16,4,B16,5,B16,6,B16,7,B16,8,B16,9};
(3)S16为V16中的非终结符,且为起始符号;
(4)文法G16的产生式集合为:P16={
S16→b15B16,1
B16,1→b28B16,2
B16,1→b25B16,3
B16,2→b1B16,4∣b3B16,4
B16,3→b1B16,5∣b3B16,5
B16,4→b24B16,6∣b25B16,6
B16,5→b24B16,6
B16,6→iB16,7∣uB16,7∣eB16,7∣oB16,7
B16,6→b3B16,8∣b4B16,8∣b15B16,8∣b16B16,8
B16,6→b12B16,9∣b25B16,9∣b26B16,9
B16,7→b3B16,8∣b4B16,8∣b15B16,8∣b16B16,8
B16,7→b12B16,9∣b25B16,9∣b26B16,9
B16,8→b28
B16,9→b11}
对藏文拼写结构17有:
藏文拼写形式文法G17:藏文基字、元音符号及后加字拼写形式文法G17是一个四元组(T17,V17,S17,P17),其中:
(1)终结符
T17=TB∪To,其中:
TB={b1,b2,b3,b4,b5,…,b30},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V17={S17,B17,1,B17,2};
(3)S17为V17中的一个非终结符,且为起始符号;
(4)文法G17的产生式集合为:P17={
S17→b1B17,1∣b2B17,1∣b3B17,1∣b4B17,1∣b5B17,1∣…∣b30B17,1
S17→b1B17,2∣b2B17,2∣b3B17,2∣b4B17,2∣b5B17,2∣…∣b30B17,2
B17,1→iB17,2∣uB17,2∣eB17,2∣oB17,2
B17,2→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构18有:
藏文拼写形式文法G18:藏文上加字、基字、元音符号及后加字拼写形式文法G18是一个四元组(T18,V18,S18,P18),其中:
(1)终结符
T18=TB∪To,其中:
TB={b1,b3,b4,b5,b7,b8,b9,b11,b12,b13,b15,b16,b17,b19,b23,b25,b26,b28,b29},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V18={S18,B18,1,B18,2,B18,3,B18,4,B18,5};
(3)S18为V18中的一个非终结符,且为起始符号;
(4)文法G18的产生式集合为:P18={
S18→b25B18,1∣b26B18,2∣b28B18,3
B18,1→b1B18,5∣b3B18,5∣b4B18,5∣b7B18,5∣b8B18,5∣b9B18,5∣b11B18,5∣b12B18,5∣b15B18,5∣b16B18,5∣b17B18,5∣b19B18,5
B18,1→b1B18,4∣b3B18,4∣b4B18,4∣b7B18,4∣b8B18,4∣b9B18,4∣b11B18,4∣b12B18,4∣b15B18,4∣b16B18,4∣b17B18,4∣b19B18,4
B18,2→b1B18,5∣b3B18,5∣b4B18,5∣b5B18,5∣b7B18,5∣b9B18,5∣b11B18,5∣b13B18,5∣b15B18,5∣b29B18,5
B18,2→b1B18,4∣b3B18,4∣b4B18,4∣b5B18,4∣b7B18,4∣b9B18,4∣b11B18,4∣b13B18,4∣b15B18,4∣b29B18,4
B18,3→b1B18,5∣b3B18,5∣b4B18,5∣b8B18,5∣b9B18,5∣b11B18,5∣b12B18,5∣b13B18,5∣b15B18,5∣b16B18,5∣b17B18,5
B18,3→b1B18,4∣b3B18,4∣b4B18,4∣b8B18,4∣b9B18,4∣b11B18,4∣b12B18,4∣b13B18,4∣b15B18,4∣b16B18,4∣b17B18,4
B18,4→iB18,5∣uB18,5∣eB18,5∣oB18,5
B18,5→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构19有:
藏文拼写形式文法G19:藏文基字、下加字、元音符号及后加字拼写形式文法G19是一个四元组(T6,V6,S6,P6),其中:
(1)终结符
T19=TB∪To,其中:
TB={b1,b2,b3,b4,b8,b9,b10,b11,b12,b13,b14,b15,b16,b18,b20,b21,b22,b23,b24,b25,b26,b27,b28,b29},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V19={S19,B19,1,B19,2,B19,3,B19,4,B19,5,B19,6,B19,7,B19,8,B19,9,B19,10,B19,11};
(3)S19为V19中的一个非终结符,且为起始符号;
(4)文法G19的产生式集合为:P19={
S19→b1B19,1∣b3B19,1
S19→b2B19,2
S19→b11B19,3∣b29B19,3
S19→b8B19,4∣b18B19,4∣b21B19,4∣b26B19,4∣b27B19,4
S19→b9B19,5∣b10B19,5
S19→b13B19,6∣b14B19,6∣b16B19,6
S19→b22B19,7∣b25B19,7
S19→b28B19,8
S19→b15B19,9
B19,1→b20B19,11∣b24B19,11∣b25B19,11∣b26B19,11
B19,1→b20B19,10∣b24B19,10∣b25B19,10∣b26B19,10
B19,2→b20B19,11∣b24B19,11∣b25B19,11
B19,2→b20B19,10∣b24B19,10∣b25B19,10
B19,3→b20B19,11∣b25B19,11
B19,3→b20B19,10∣b25B19,10
B19,4→b20B19,11
B19,4→b20B19,10
B19,5→b25B19,11
B19,5→b25B19,10
B19,6→b24B19,11∣b25B19,11
B19,6→b24B19,10∣b25B19,10
B19,7→b20B19,11∣b26B19,11
B19,7→b20B19,10∣b26B19,10
B19,8→b25B19,11∣b26B19,11
B19,8→b25B19,10∣b26B19,10
B19,9→b24B19,11∣b25B19,11∣b26B19,11
B19,9→b24B19,10∣b25B19,10∣b26B19,10
B19,10→iB19,11∣uB19,11∣eB19,11∣oB19,11
B19,11→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构20有:
藏文拼写形式文法G20:上加字、藏文基字、下加字、元音符号及后加字拼写形式文法G20是一个四元组(T20,V20,S20,P20),其中:
(1)终结符
T20=TB∪To,其中:
TB={b1,b3,b4,b11,b12,b13,b15,b16,b17,b20,b23,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V20={S20,B20,1,B20,2,B20,3,B20,4,B20,5,B20,6,B20,7,B20,8};
(3)S20为V20中的一个非终结符,且为起始符号;
(4)文法G20的产生式集合为:P20={
S20→b25B20,1
S20→b28B20,2
B20,1→b1B20,3∣b3B20,3∣b16B20,3
B20,1→b17B20,4
B20,2→b1B20,5∣b3B20,5∣b13B20,5∣b15B20,5∣b16B20,5
B20,2→b12B20,6
B20,3→b24B20,8
B20,3→b24B20,7
B20,4→b20B20,8
B20,4→b20B20,7
B20,5→b24B20,8∣b25B20,8
B20,5→b24B20,7∣b25B20,7
B20,6→b25B20,8
B20,6→b25B20,7
B20,7→iB20,8∣uB20,8∣eB20,8∣oB20,8
B20,8→b3∣b4∣b11∣b12∣b15∣b16∣b23∣b25∣b26∣b28}
对藏文拼写结构21有:
藏文拼写形式文法G21:藏文基字、元音符号、后加字及再后加字拼写形式文法G21是一个四元组(T21,V21,S21,P21),其中:
(1)终结符
T21=TB∪To,其中:
TB={b1,b2,b3,b4,b5,…,b30},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V21={S21,B21,1,B21,2,B21,3,B21,4,B21,5,B21,6,B21,7};
(3)S21为V21中的一个非终结符,且为起始符号;
(4)文法G21的产生式集合为:P21={
S21→b1B21,1∣b2B21,1∣…∣b10B21,1∣b12B21,1∣b13B21,1∣…∣b22B21,1∣b24B21,1∣b25B21,1∣…∣b30B21,1
S21→b11B21,2
S21→b23B21,3
B21,1→iB21,4∣uB21,4∣eB21,4∣oB21,4
B21,1→b3B21,7∣b4B21,7∣b15B21,7∣b16B21,7
B21,2→iB21,5∣uB21,5∣eB21,5∣oB21,5
B21,3→b4B21,7∣b16B21,7
B21,3→iB21,6∣uB21,6∣eB21,6∣oB21,6
B21,4→b3B21,7∣b4B21,7∣b15B21,7∣b16B21,7
B21,5→b3B21,7∣b4B21,7∣b15B21,7∣b16B21,7
B21,6→b3B21,7∣b4B21,7∣b15B21,7∣b16B21,7
B21,7→b28}
对藏文拼写结构22有:
藏文拼写形式文法G22:藏文上加字、基字、元音符号、后加字及再后加字拼写形式文法G22是一个四元组(T22,V22,S22,P22),其中:
(1)终结符
T22=TB∪To,其中:
TB={b1,b3,b4,b5,b7,b8,b9,b11,b12,b13,b15,b16,b17,b19,b25,b26,b28,b29},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V22={S22,B22,1,B22,2,B22,3,B22,4,B22,5};
(3)S22为V22中的非终结符,且为起始符号;
(4)文法G22的产生式集合为:P22={
S22→b25B22,1∣b26B22,2∣b28B22,3
B22,1→b1B22,4∣b3B22,4∣b4B22,4∣b7B22,4∣b8B22,4∣b9B22,4∣b11B22,4∣b12B22,4∣b15B22,4∣b16B22,4∣b17B22,4∣b19B22,4
B22,2→b1B22,4∣b3B22,4∣b4B22,4∣b5B22,4∣b7B22,4∣b9B22,4∣b11B22,4∣b13B22,4∣b15B22,4∣b29B22,4
B22,3→b1B22,4∣b3B22,4∣b4B22,4∣b8B22,4∣b9B22,4∣b11B22,4∣b12B22,4∣b13B22,4∣b15B22,4∣b16B22,4∣b17B22,4
B22,4→iB22,7∣uB22,7∣eB22,7∣oB22,7
B22,4→b12B22,5∣b25B22,5∣b26B22,5
B22,4→b3B22,6∣b4B22,6∣b15B22,6∣b16B22,6
B22,7→b12B22,5∣b25B22,5∣b26B22,5
B22,7→b3B22,6∣b4B22,6∣b15B22,6∣b16B22,6
B22,5→b11
B22,6→b18}
对藏文拼写结构23有:
藏文拼写形式文法G23:藏文基字、下加字、元音符号、后加字及再后加字拼写构成的藏文字的文法G23是一个四元组(T23,V23,S23,P23),其中:
(1)终结符
T23=TB∪To,其中:
TB={b1,b2,b3,b4,b8,b9,b10,b11,b12,b13,b14,b15,b16,b18,b20,b21,b22,b24,b25,b26,b27,b28,b29},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V23={S23,B23,1,B23,2,B23,3,B23,4,B23,5,B23,6,B23,7,B23,8,B23,9,B23,10,B23,11,B23,12,B23,13};
(3)S23为V23中的非终结符,且为起始符号;
(4)文法G23的产生式集合为:P23={
S23→b1B23,1∣b3B23,1
S23→b2B23,2
S23→b11B23,3∣b29B23,3
S23→b8B23,4∣b18B23,4∣b21B23,4∣b26B23,4∣b27B23,4
S23→b9B23,5∣b10B23,5
S23→b13B23,6∣b14B23,6∣b16B23,6
S23→b22B23,7∣b25B23,7
S23→b28B23,8
S23→b15B23,9
B23,1→b20B23,10∣b24B23,10∣b25B23,10∣b26B23,10
B23,2→b20B23,10∣b24B23,10∣b25B23,10
B23,3→b20B23,10∣b25B23,10
B23,4→b20B23,10
B23,5→b25B23,10
B23,6→b24B23,10∣b25B23,10
B23,7→b20B23,10∣b26B23,10
B23,8→b25B23,10∣b26B23,10
B23,9→b24B23,10∣b25B23,10∣b26B23,10
B23,10→iB23,11∣uB23,11∣eB23,11∣oB23,11
B23,10→b12B23,12∣b25B23,12∣b26B23,12
B23,10→b3B23,13∣b4B23,13∣b15B23,13∣b16B23,13
B23,11→b12B23,12∣b25B23,12∣b26B23,12
B23,11→b3B23,13∣b4B23,13∣b15B23,13∣b16B23,13
B23,12→b11
B23,13→b18}
对藏文拼写结构24有:
藏文拼写形式文法G24:藏文上加字、基字、下加字、元音符号、后加字及再后加字拼写形式文法G24是一个四元组(T24,V24,S24,P24),其中:
(1)终结符
T24=TB∪To,其中:
TB={b1,b3,b4,b11,b12,b13,b15,b16,b17,b20,b24,b25,b26,b28},其元素对应藏文辅音字符;To={i,u,e,o},其元素对应藏文元音字符;
(2)非终结符集合
V24={S24,B24,1,B24,2,B24,3,B24,4,B24,5,B24,6,B24,7,B24,8,B24,9,B24,10};
(3)S24为V24中的非终结符,且为起始符号;
(4)文法G24的产生式集合为:P24={
S24→b25B24,1
S24→b28B24,2
B24,1→b1B24,3∣b3B24,3∣b16B24,3
B24,1→b17B24,4
B24,2→b1B24,5∣b3B24,5∣b13B24,5∣b15B24,5∣b16B24,5
B24,2→b12B24,6
B24,3→b24B24,7
B24,4→b20B24,7
B24,5→b24B24,7∣b25B24,7
B24,6→b25B24,7
B24,7→iB24,8∣uB24,8∣eB24,8∣oB24,8
B24,7→b12B24,9∣b25B24,9∣b26B24,9
B24,7→b3B24,10∣b4B24,10∣b15B24,10∣b16B24,10
B24,8→b12B24,9∣b25B24,9∣b26B24,9
B24,8→b3B24,10∣b4B24,10∣b15B24,10∣b16B24,10
B24,9→b11
B24,10→b18}
在本实施例中,通过获取新增的非终结符Ei的过程包括:判断所述藏文拼写形式文法Gi的产生式规则的有限集合Pi中是否包含产生式规则B→x,所述B∈Vi,x∈Ti;如果是,获取Ei∈δi(B,x),所述δi(B,x)=φ。Ei属于非终结符的一种。
步骤103,当有限状态自动机群组中目标有限状态自动机确定藏文文本中藏文字拼写正确时,根据该目标有限状态自动机获取该藏文字的组成成分。
在本实施例中,通过步骤103确定目标有限状态自动机的过程可以包括:有限状态自动机群组中的每一个有限状态自动机从初始状态开始,依次接收至少一个藏文字,并转移状态;如果有限状态自动机群组中的某一个有限状态自动机在转移状态后能够进入终止状态,则待检查藏文文本的拼写正确;如果有限状态自动机群组中所有有限状态自动机转移状态后都不能进入终止状态,则待检查藏文文本的拼写错误。确定待检查藏文文本拼写正确的有限状态自动机即为目标有限状态自动机。
其中,转移状态,例如可以为:有限状态自动机Mi在某个状态,如qm(qm∈Qi),接收某个输入字符,如x(x∈Σi),如果状态转移函数δm(qm,x)∈δi,则自动机进入状态qm+1(qm+1∈(qm,x)),否则自动机状态不发生变化。
在本实施例中,通过步骤103获取藏文字的组成成分的过程可以包括:首先获取目标有限状态自动机对应的目标藏文拼写形式文法;然后根据该目标藏文拼写形式文法获取该藏文字的组成成分。
在本实施例中,藏文字的组成成分与藏文拼写形式文法一一对应。具体的,藏文字的组成成分共有24种基本拼写结构,如下:
藏文字基本拼写结构1:藏文基字与元音符号拼写。
藏文字基本拼写结构2:藏文上加字、基字及元音拼写。
藏文字基本拼写结构3:藏文基字、下加字及元音符号拼写。
藏文字基本拼写结构4:上加字、藏文基字、下加字及元音符号拼写。
藏文字基本拼写结构5:藏文前加字、上加字、基字及元音符号拼写。
藏文字基本拼写结构6:藏文前加字、基字、下加字及元音符号拼写。
藏文字基本拼写结构7:藏文前加字、上加字、基字、下加字及元音符号拼写。
藏文字基本拼写结构8:藏文前加字、基字及元音符号拼写。
藏文字基本拼写结构9:藏文前加字、基字、元音字符及后加字拼写。
藏文字基本拼写结构10:藏文前加字、上加字、基字、元音符号及后加字拼写。
藏文字基本拼写结构11:藏文前加字、基字、下加字、元音符号及后加字拼写。
藏文字基本拼写结构12:藏文前加字、上加字、基字、下加字、元音符号及后加字拼写。
藏文字基本拼写结构13:藏文前加字、基字、元音符号、后加字及再后加字拼写。
藏文字基本拼写结构14:藏文前加字、上加字、基字、元音符号、后加字及再后加字拼写。
藏文字基本拼写结构15:藏文前加字、基字、下加字、元音符号、后加字及再后加字拼写。
藏文字基本拼写结构16:藏文前加字、上加字、基字、下加字、元音符号、后加字及再后加字拼写。
藏文字基本拼写结构17:藏文基字、元音符号及后加字拼写。
藏文字基本拼写结构18:藏文上加字、基字、元音符号及后加字拼写。
藏文字基本拼写结构19:藏文基字、下加字、元音符号及后加字拼写。
藏文字基本拼写结构20:上加字、藏文基字、下加字、元音符号及后加字拼写。
藏文字基本拼写结构21:藏文基字、元音符号、后加字及再后加字拼写。
藏文字基本拼写结构22:藏文上加字、基字、元音符号、后加字及再后加字拼写。
藏文字基本拼写结构23:藏文基字、下加字、元音符号、后加字及再后加字拼写。
藏文字基本拼写结构24:藏文上加字、基字、下加字、元音符号、后加字及再后加字拼写。
说明:藏文字基本拼写结构8中的元音符号是必须有的,除此之外,其他结构中的元音符号是可选的。
本发明具有如下有益效果:通过将待分析的藏文文本作为有限状态自动机群组的输入,并根据确定藏文字正确的目标有限状态自动机获取藏文字的组成成分,从而实现藏文字成分分析并能进一步根据藏文字的组成成分实现藏文排序。由于有限状态自动机群组与藏文拼写形式文法对应,因此本发明实施例提供的技术方案解决了现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题。
实施例2
如图2所示,本发明实施例提供一种藏文排序方法,包括:
步骤201,获取待排序的至少两个藏文字。
在本实施例中,通过步骤201获取的至少两个藏文字可以为独立的藏文字,也可以为由多个藏文字组成的藏文文本,在此不做限制。特别的,当获取至少两个藏文字的藏文文本时,可以首先对藏文文本进行切分,该切分过程与图1所示的步骤101的切分方式相似,在此不再一一赘述。
步骤202,分别将待排序的至少两个藏文字作为预设有限状态自动机群组的输入。
步骤203,当有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据该目标有限状态自动机获取该藏文字的组成成分。
在本实施例中,通过步骤202和步骤203获取藏文字的组成成分的过程,与图1所示的步骤102和步骤103相似,在此不再一一赘述。
步骤204,根据至少两个藏文字的组成成分,对该至少两个藏文字进行排序,得到排序结果。
在本实施例中,对于至少两个藏文字中任意两个藏文字,通过步骤204进行排序的过程包括:2041、根据该两个藏文字的组成成分判断该两个藏文字是否符合预设成分规则;如果符合,执行2042;否则,执行2044;2042、判断该两个藏文字的基字是否相同;如果相同,执行2043;否则,执行2044;2043、根据该两个藏文字的组成成分依次按前加字、上加字、下加字、元音、后加字、再后加字的顺序进行比较;执行2045;2044、根据该两个藏文字的组成成分依次按上加字、前加字、下加字、元音、后加字、再后加字的顺序进行比较;执行2045;2045、如果比较结果为该两个藏文字中前一个藏文字大于后一个藏文字,则该两个藏文字的顺序对调;否则,该两个藏文字的顺序不变。其中,2041包括:根据该两个藏文字的组成成分获取该两个藏文字的拼写结构编号;根据该两个藏文字的拼写结构编号判断该两个藏文字是否符合预设成分规则;所述成分规则包括:两个藏文字中第一个藏文字的拼写结构编号属于集合{2,4,18,20,22,24}且两个藏文字中第二个藏文字的拼写结构编号属于集合{5,7,10,12,14,16};或者,两个藏文字中第一个藏文字的拼写结构编号属于集合{5,7,10,12,14,16}且两个藏文字中第二个藏文字的拼写结构编号属于集合{2,4,18,20,22,24}。
在本实施例中,藏文字的组成成分可以概括为基字、前加字、上加字、下加字、元音、后加字和再后加字,共7种符号。当藏文字的组成成分不包含某一种或者某几种符号时,该藏文字的对应符号标记为0。
在本实施例中,通过上述过程确定至少两个藏文字中任意两个藏文字的排序后,可以采用冒泡算法等排序方法确定全部至少两个藏文字的排序。
本发明具有如下有益效果:通过将待分析的藏文文本作为有限状态自动机群组的输入,并根据确定藏文字正确的目标有限状态自动机获取藏文字的组成成分,从而实现藏文字成分分析并能进一步根据藏文字的组成成分实现藏文排序。由于有限状态自动机群组与藏文拼写形式文法对应,因此本发明实施例提供的技术方案解决了现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题。
实施例3
如图3所示,本发明实施例提供的藏文排序方法,包括:
步骤301,获取待排序的至少两个藏文词。
步骤302,分别获取该至少两个藏文词中的藏文字。
在本实施例中,可以将至少两个藏文词进行切分,获取藏文字;也可以根据特定分隔符等标志对至少两个藏文词进行分割,获取藏文字,在此不再一一赘述。
步骤303,分别将至少两个藏文词中的藏文字作为预设有限状态自动机群组的输入。
步骤304,当有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据目标有限状态自动机获取该藏文字的组成成分。
在本实施例中,通过步骤303和步骤304获取藏文字的组成成分的过程,与图1所示的步骤102和步骤103相似,在此不再一一赘述。
步骤305,根据至少两个藏文词中每个藏文字的组成成分,对至少两个藏文词进行排序,得到排序结果。
在本实施例中,对于该至少两个藏文词中任意两个藏文词,通过步骤305进行排序的过程包括:3051、分别获取该两个藏文词中第一个藏文字;3052、根据藏文字的组成成分判断该两个藏文字是否符合预设成分规则;如果符合,执行3053;否则,执行3055;3053、判断藏文字的基字是否相同;如果相同,执行3054;否则,执行3055;3054、根据藏文字的组成分依次按前加字、上加字、下加字、元音、后加字、再后加字的顺序进行比较;执行3056;3055、根据藏文字的组成成分依次按上加字、前加字、下加字、元音、后加字、再后加字的顺序进行比较;执行3056;3056、如果比较结果为前一个藏文词中的藏文字大于后一个藏文词中对应的藏文字,则将该两个藏文词的顺序对调;如果比较结果为前一个藏文词中的藏文字小于后一个藏文词中对应的藏文字,则该两个藏文词的顺序不变;如果比较结果为前一个藏文词中的藏文字等于后一个藏文词中对应的藏文字,获取该至少两个藏文词中下一个藏文字,执行3052至3056,直至该两个藏文词中所有藏文字比较完成。其中,通过3052判断是否符合成分规则的过程,与实施例2提供的相似,在此不再一一赘述。
本发明具有如下有益效果:通过将待分析的藏文文本作为有限状态自动机群组的输入,并根据确定藏文字正确的目标有限状态自动机获取藏文字的组成成分,从而实现藏文字成分分析并能进一步根据藏文字的组成成分实现藏文排序。由于有限状态自动机群组与藏文拼写形式文法对应,因此本发明实施例提供的技术方案解决了现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题。
实施例4
如图4所示,本发明实施例提供一种藏文字成分分析装置,包括:
文本获取模块401,用于获取待分析的藏文文本;
文本输入模块402,与所述文本获取模块相连,用于将所述藏文文本中藏文字作为预设有限状态自动机群组的输入;
成分分析模块403,与所述文本输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定所述藏文文本中藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
在本实施例中,通过文本获取模块401、文本输入模块402和成分分析模块403实现藏文字成分分析的过程,与本发明实施例1提供的过程相似,在此不再一一赘述。
本发明具有如下有益效果:通过将待分析的藏文文本作为有限状态自动机群组的输入,并根据确定藏文字正确的目标有限状态自动机获取藏文字的组成成分,从而实现藏文字成分分析并能进一步根据藏文字的组成成分实现藏文排序。由于有限状态自动机群组与藏文拼写形式文法对应,因此本发明实施例提供的技术方案解决了现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题。
实施例5
如图5所示,本发明实施例提供一种藏文排序装置,包括:
藏文字获取模块501,用于获取待排序的至少两个藏文字;
藏文字输入模块502,与所述藏文字获取模块相连,用于分别将所述待排序的至少两个藏文字作为预设有限状态自动机群组的输入;
成分分析模块503,与所述藏文字输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
排序模块504,与所述成分分析模块相连,用于根据所述至少两个藏文字的组成成分,对所述至少两个藏文字进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
在本实施例中,通过藏文字获取模块501、藏文字输入模块502、成分分析模块503和排序模块504进行藏文排序的过程,与本发明实施例2提供的过程相似,在此不再一一赘述。
本发明具有如下有益效果:通过将待分析的藏文文本作为有限状态自动机群组的输入,并根据确定藏文字正确的目标有限状态自动机获取藏文字的组成成分,从而实现藏文字成分分析并能进一步根据藏文字的组成成分实现藏文排序。由于有限状态自动机群组与藏文拼写形式文法对应,因此本发明实施例提供的技术方案解决了现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题。
实施例6
如图6所示,本发明实施例提供一种藏文排序装置,包括:
藏文词获取模块601,用于获取待排序的至少两个藏文词;
藏文字获取模块602,与所述藏文词获取模块相连,用于分别获取所述至少两个藏文词中的藏文字;
藏文字输入模块603,与所述藏文字获取模块相连,用于分别将所述至少两个藏文词中的藏文字作为预设有限状态自动机群组的输入;
成分分析模块604,与所述藏文字输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
排序模块605,与所述成分分析模块相连,用于根据所述至少两个藏文词中每个藏文字的组成成分,对所述至少两个藏文词进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24。
在本实施例中,通过藏文词获取模块601至排序模块605实现藏文排序的过程,与本发明实施例3提供的过程相似,在此不再一一赘述。
本发明具有如下有益效果:通过将待分析的藏文文本作为有限状态自动机群组的输入,并根据确定藏文字正确的目标有限状态自动机获取藏文字的组成成分,从而实现藏文字成分分析并能进一步根据藏文字的组成成分实现藏文排序。由于有限状态自动机群组与藏文拼写形式文法对应,因此本发明实施例提供的技术方案解决了现有的藏文排序方法不具有通用性或兼容性,不便于计算机藏文自动排序的使用的问题。
以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种藏文排序方法,其特征在于,包括:
S10、获取待排序的至少两个藏文字;
S20、分别将所述待排序的至少两个藏文字作为预设有限状态自动机群组的输入;
S30、当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
S40、根据所述至少两个藏文字的组成成分,对所述至少两个藏文字进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24;
对于所述至少两个藏文字中任意两个藏文字,所述S40包括:
S401、根据该两个藏文字的组成成分判断该两个藏文字是否符合预设成分规则;如果符合,执行S402;否则,执行S404;
S402、判断该两个藏文字的基字是否相同;如果相同,执行S403;否则,执行S404;
S403、根据该两个藏文字的组成成分依次按前加字、上加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S405;
S404、根据该两个藏文字的组成成分依次按上加字、前加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S405;
S405、如果比较结果为该两个藏文字中前一个藏文字大于后一个藏文字,则该两个藏文字的顺序对调;否则,该两个藏文字的顺序不变。
2.根据权利要求1所述的藏文排序方法,其特征在于,所述401,包括:
S4011、根据该两个藏文字的组成成分获取该两个藏文字的拼写结构编号;
S4012、根据该两个藏文字的拼写结构编号判断该两个藏文字是否符合预设成分规则;
所述成分规则包括:
两个藏文字中第一个藏文字的拼写结构编号属于集合{2,4,18,20,22,24}且两个藏文字中第二个藏文字的拼写结构编号属于集合{5,7,10,12,14,16};或者,两个藏文字中第一个藏文字的拼写结构编号属于集合{5,7,10,12,14,16}且两个藏文字中第二个藏文字的拼写结构编号属于集合{2,4,18,20,22,24};
所述2,4,18,20,22,24,5,7,10,12,14,16为预先设定的藏文字基本拼写结构。
3.一种藏文排序方法,其特征在于,包括:
S10、获取待排序的至少两个藏文词;
S20、分别获取所述至少两个藏文词中的藏文字;
S30、分别将所述至少两个藏文词中的藏文字作为预设有限状态自动机群组的输入;
S40、当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
S50、根据所述至少两个藏文词中每个藏文字的组成成分,对所述至少两个藏文词进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24;
对于所述至少两个藏文词中任意两个藏文词,所述S50,包括:
S501、分别获取该两个藏文词中第一个藏文字;
S502、根据藏文字的组成成分判断该两个藏文字是否符合预设成分规则;如果符合,执行S503;否则,执行S505;
S503、判断藏文字的基字是否相同;如果相同,执行S504;否则,执行S505;
S504、根据藏文字的组成分依次按前加字、上加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S506;
S505、根据藏文字的组成成分依次按上加字、前加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S506;
S506、如果比较结果为前一个藏文词中的藏文字大于后一个藏文词中对应的藏文字,则将该两个藏文词的顺序对调;如果比较结果为前一个藏文词中的藏文字小于后一个藏文词中对应的藏文字,则该两个藏文词的顺序不变;如果比较结果为前一个藏文词中的藏文字等于后一个藏文词中对应的藏文字,获取该至少两个藏文词中下一个藏文字,执行S502至S506,直至该两个藏文词中所有藏文字比较完成。
4.一种藏文排序装置,其特征在于,包括:
藏文字获取模块,用于获取待排序的至少两个藏文字;
藏文字输入模块,与所述藏文字获取模块相连,用于分别将所述待排序的至少两个藏文字作为预设有限状态自动机群组的输入;
成分分析模块,与所述藏文字输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
排序模块,与所述成分分析模块相连,用于根据所述至少两个藏文字的组成成分,对所述至少两个藏文字进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24;
对于所述至少两个藏文字中任意两个藏文字,所述根据所述至少两个藏文字的组成成分,对所述至少两个藏文字进行排序包括:
S401、根据该两个藏文字的组成成分判断该两个藏文字是否符合预设成分规则;如果符合,执行S402;否则,执行S404;
S402、判断该两个藏文字的基字是否相同;如果相同,执行S403;否则,执行S404;
S403、根据该两个藏文字的组成成分依次按前加字、上加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S405;
S404、根据该两个藏文字的组成成分依次按上加字、前加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S405;
S405、如果比较结果为该两个藏文字中前一个藏文字大于后一个藏文字,则该两个藏文字的顺序对调;否则,该两个藏文字的顺序不变。
5.一种藏文排序装置,其特征在于,包括:
藏文词获取模块,用于获取待排序的至少两个藏文词;
藏文字获取模块,与所述藏文词获取模块相连,用于分别获取所述至少两个藏文词中的藏文字;
藏文字输入模块,与所述藏文字获取模块相连,用于分别将所述至少两个藏文词中的藏文字作为预设有限状态自动机群组的输入;
成分分析模块,与所述藏文字输入模块相连,用于当所述有限状态自动机群组中目标有限状态自动机确定输入的藏文字拼写正确时,根据所述目标有限状态自动机获取该藏文字的组成成分;
排序模块,与所述成分分析模块相连,用于根据所述至少两个藏文词中每个藏文字的组成成分,对所述至少两个藏文词进行排序,得到排序结果;
所述有限状态自动机群组包括24个有限状态自动机,其中任一有限状态自动机Mi=(Σi,Qi,δi,qi,Fi);所述Σi为预设藏文拼写形式文法Gi的终结符的有限集合;所述Qi为所述藏文拼写形式文法Gi的非终结符的有限集合Vi与所述Fi的并集;所述δi是根据Qi与Σi之直积Qi×Σi到Qi的映射获取的所述有限状态自动机Mi的状态转移函数;所述qi为所述有限状态自动机Mi的初始状态,所述qi∈Qi;所述Fi为所述有限状态自动机Mi的终止状态的有限集合,所述所述i为正整数,所述i≤24;
所述根据所述至少两个藏文词中每个藏文字的组成成分,对所述至少两个藏文词进行排序,包括:
S501、分别获取该两个藏文词中第一个藏文字;
S502、根据藏文字的组成成分判断该两个藏文字是否符合预设成分规则;如果符合,执行S503;否则,执行S505;
S503、判断藏文字的基字是否相同;如果相同,执行S504;否则,执行S505;
S504、根据藏文字的组成分依次按前加字、上加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S506;
S505、根据藏文字的组成成分依次按上加字、前加字、下加字、元音、后加字、再后加字的顺序进行比较;执行S506;
S506、如果比较结果为前一个藏文词中的藏文字大于后一个藏文词中对应的藏文字,则将该两个藏文词的顺序对调;如果比较结果为前一个藏文词中的藏文字小于后一个藏文词中对应的藏文字,则该两个藏文词的顺序不变;如果比较结果为前一个藏文词中的藏文字等于后一个藏文词中对应的藏文字,获取该至少两个藏文词中下一个藏文字,执行S502至S506,直至该两个藏文词中所有藏文字比较完成。
CN201610528753.9A 2016-07-05 2016-07-05 藏文字成分分析方法、藏文排序方法以及对应装置 Active CN106156006B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610528753.9A CN106156006B (zh) 2016-07-05 2016-07-05 藏文字成分分析方法、藏文排序方法以及对应装置
US15/338,509 US20180011836A1 (en) 2016-07-05 2016-10-31 Tibetan Character Constituent Analysis Method, Tibetan Sorting Method And Corresponding Devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610528753.9A CN106156006B (zh) 2016-07-05 2016-07-05 藏文字成分分析方法、藏文排序方法以及对应装置

Publications (2)

Publication Number Publication Date
CN106156006A CN106156006A (zh) 2016-11-23
CN106156006B true CN106156006B (zh) 2019-07-23

Family

ID=58061216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610528753.9A Active CN106156006B (zh) 2016-07-05 2016-07-05 藏文字成分分析方法、藏文排序方法以及对应装置

Country Status (2)

Country Link
US (1) US20180011836A1 (zh)
CN (1) CN106156006B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10599766B2 (en) 2017-12-15 2020-03-24 International Business Machines Corporation Symbolic regression embedding dimensionality analysis
CN112561928B (zh) * 2020-12-10 2024-03-08 西藏大学 一种藏文古籍的版面分析方法及系统
CN112613512B (zh) * 2020-12-29 2022-08-12 西北民族大学 基于结构属性的乌金体藏文古籍字符切分方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1696880A (zh) * 2005-05-08 2005-11-16 卢亚军 藏文计算机通用键盘布局与输入法
CN1801152A (zh) * 2006-01-13 2006-07-12 清华大学 一种用于文本或网络内容分析的多关键词匹配方法
JP3852757B2 (ja) * 2002-02-05 2006-12-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列照合方法、これを用いた文書処理装置及びプログラム
EP2336929A1 (en) * 2009-11-24 2011-06-22 The Boeing Company Efficent text discrimination
CN102521356A (zh) * 2011-12-13 2012-06-27 曙光信息产业(北京)有限公司 基于确定有限状态自动机的正则表达式匹配设备和方法
CN104408037A (zh) * 2014-12-05 2015-03-11 才智杰 藏文文本的向量模型表示方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864502A (en) * 1987-10-07 1989-09-05 Houghton Mifflin Company Sentence analyzer
US7627541B2 (en) * 2006-09-15 2009-12-01 Microsoft Corporation Transformation of modular finite state transducers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3852757B2 (ja) * 2002-02-05 2006-12-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列照合方法、これを用いた文書処理装置及びプログラム
CN1696880A (zh) * 2005-05-08 2005-11-16 卢亚军 藏文计算机通用键盘布局与输入法
CN1801152A (zh) * 2006-01-13 2006-07-12 清华大学 一种用于文本或网络内容分析的多关键词匹配方法
EP2336929A1 (en) * 2009-11-24 2011-06-22 The Boeing Company Efficent text discrimination
CN102521356A (zh) * 2011-12-13 2012-06-27 曙光信息产业(北京)有限公司 基于确定有限状态自动机的正则表达式匹配设备和方法
CN104408037A (zh) * 2014-12-05 2015-03-11 才智杰 藏文文本的向量模型表示方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Language independent transliteration mining system using finite state automata framework;S Noeman 等;《Named Entities Workshop》;20100716;第57-61页
基于有限状态自动机的蒙古文同形词校对方法的研究;廉冰;《中国优秀硕士学位论文全文数据库_信息科技辑》;20140915(第9期);摘要,第3.2节,第4.5节
基于有限状态自动机的蒙古文同形词校对方法的研究;廉冰;《中国优秀硕士学位论文全文数据库_信息科技辑》;20150915(第9期);摘要,第3.2节,第4.5节
藏文排序方法研究与拓展;春燕 等;《西藏大学学报(自然科学版)》;20110531;第26卷(第1期);第2.2节

Also Published As

Publication number Publication date
CN106156006A (zh) 2016-11-23
US20180011836A1 (en) 2018-01-11

Similar Documents

Publication Publication Date Title
CN103123618B (zh) 文本相似度获取方法和装置
CN105512105B (zh) 语义解析方法和装置
CN107506346A (zh) 一种基于机器学习的中文阅读难度分级方法及系统
CN104317965B (zh) 基于语料的情感词典构建方法
CN106156006B (zh) 藏文字成分分析方法、藏文排序方法以及对应装置
CN101131706A (zh) 一种查询修正方法及系统
Prokić et al. Recognising groups among dialects
CN110032649A (zh) 一种中医文献的实体间关系抽取方法及装置
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN110442691A (zh) 机器阅读理解中文的方法、装置和计算机设备
Wang et al. Word vector/conditional random field-based Chinese spelling error detection for SIGHAN-2015 evaluation
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN103177125B (zh) 一种快速的短文本双聚类方法
CN110263159B (zh) 一种基于单分类器多任务网络的隐式句间关系分析方法
CN109697287B (zh) 句子级双语对齐方法及系统
CN103473222A (zh) 一种藏语语义本体创建及词汇扩充方法
Lindner et al. A large-scale multi-lingual color thesaurus
Agui et al. A method of recognition and representation of Korean characters by tree grammars
CN106095756B (zh) 基于自动机的藏文拼写检查方法和装置
CN110533035B (zh) 基于文本匹配的学生作业页码识别方法
CN110674630B (zh) 指代消解方法和装置、电子设备及存储介质
Li et al. CA-EHN: Commonsense Analogy from E-HowNet
CN107526728A (zh) 一种基于众包的双语平行语料对齐方法
Li et al. Intelligent braille conversion system of Chinese characters based on Markov model
Lan Corpus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant