CN104239295A - 维汉翻译系统的多层次维语词法分析方法 - Google Patents

维汉翻译系统的多层次维语词法分析方法 Download PDF

Info

Publication number
CN104239295A
CN104239295A CN201410459155.1A CN201410459155A CN104239295A CN 104239295 A CN104239295 A CN 104239295A CN 201410459155 A CN201410459155 A CN 201410459155A CN 104239295 A CN104239295 A CN 104239295A
Authority
CN
China
Prior art keywords
word
affixe
rule
category
original shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410459155.1A
Other languages
English (en)
Other versions
CN104239295B (zh
Inventor
黄河燕
黄静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Beijing Institute of Technology BIT
Original Assignee
ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd, Beijing Institute of Technology BIT filed Critical ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Priority to CN201410459155.1A priority Critical patent/CN104239295B/zh
Publication of CN104239295A publication Critical patent/CN104239295A/zh
Application granted granted Critical
Publication of CN104239295B publication Critical patent/CN104239295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种维汉翻译系统的多层次维语词法分析方法,包括:接收维语单词;原形单词库中检索单词:检索到,生成单词内部结构;否则继续;不规则变化形变单词库中检索单词:检索到,取出原形单词和追加词形特征属性,生成单词内部结构;否则继续;非动词变化词缀规则库中对相关各词缀规则逐一还原判断:存在成功还原的词缀规则,取出追加词形特征属性,生成单词内部结构;否则继续;对各动词范畴构成规则依次还原判断:当找到成功还原的动词范畴构成规则,记录成功还原涉及的各追加词形特征属性,生成单词内部结构;若不存在成功还原的动词范畴构成规则,报错处理,结束。本发明可识别维语单词的各种词缀变化,正确、全面地完成词法分析。

Description

维汉翻译系统的多层次维语词法分析方法
技术领域
本发明涉及一种用于维汉翻译系统的、基于多层次对维语词法进行分析的方法,属于计算机科学的语言处理与分析领域。
背景技术
机器翻译是指利用电子计算机将一种自然语言转换成另一种自然语言表达的过程。众所周知,要对句子进行翻译,首先要正确识别出组成句子的每个单词所可能具有的各种含义,也就是说,词法分析是机器翻译所要做的第一件事情。
目前,在维汉翻译系统中,在对维语句子进行中文翻译之前,首先要对构成该维语句子的各个单词进行词法分析,即要正确地识别出构成该维语句子的各个单词所可能具有的各种中文含义,然后再通过维汉翻译系统中自带的分析-转换算法将该维语句子翻译成中文句子。
但是,从实际实施可以看到,在一定领域内,维语包含了一定规模的原形单词(即基本单词),且在各种时态、人称、格、语态等范畴下,每个原形单词又有着其相应的形变单词,更重要的是,部分的原形单词的形变单词是不规则变化的,无规则可循。而已有的维汉字典中只收录了维语的原形单词,因此,通过维汉字典不可能将各个原形单词的各种规则形变和不规则形变的形变单词识别出来。
由此可见,设计出一种正确、全面、快速对维语单词进行词法分析的技术方案是目前急需解决的问题。
发明内容
本发明的目的在于,面对维语单词形变丰富、词缀繁多、规律复杂的特点,提供一种多层次维语词法分析方法,该方法可对维语单词进行正确、全面、快速地词法分析,为维汉翻译系统准确对维语句子进行中文翻译奠定了基础。
为了实现上述目的,本发明采用了以下技术方案:
一种维汉翻译系统的多层次维语词法分析方法,其特征在于,它包括如下步骤:
1)接收维语转写系统转换成的由若干字符构成的维语单词;
2)在原形单词库中检索该单词:若检索到,继续6);否则,继续3);
3)在不规则变化形变单词库中检索该单词:若检索到,取出该单词的原形单词和追加词形特征属性并记录,继续6);否则,继续4);
4)在非动词变化词缀规则库中提取出所含词缀的末字符为该单词的末字符的各词缀规则,并对该单词逐一针对各词缀规则进行还原判断:若存在成功将该单词还原成原形单词的词缀规则,则从该词缀规则中取出追加词形特征属性并记录,继续6);否则,继续5);
5)对该单词针对动词词缀构成规则库中的各个动词范畴构成规则依次进行还原判断:当找到成功将该单词还原成原形单词的动词范畴构成规则时,记录该单词在被成功还原的过程中从该动词范畴构成规则包含的范畴序号对应的各规则子库中取出的追加词形特征属性,继续6);若不存在成功将该单词还原成原形单词的动词范畴构成规则,则报错处理,继续7);
6)基于在原形单词库中对该单词的原形单词取出的语法分类、语义属性、中文解释以及记录的追加词形特征属性,对该单词的每一原形单词生成单词内部结构;
7)维语词法分析结束。
在所述4)中,对该单词,针对在所述非动词变化词缀规则库中提取出的每一词缀规则进行还原判断包括步骤:
若根据当前词缀规则不可将该单词分离成词干与词缀两部分,则继续对下一个词缀规则进行还原判断;否则,按照该词缀规则中的弱化字符还原式和添加字符将该单词进行还原,并针对还原后得到的原形单词,在原形单词库中检索:若未检索到,则继续对下一个词缀规则进行还原判断;若检索到,则检查是否满足该词缀规则中的语法检查条件,若满足,则取出该词缀规则中的追加词形特征属性并记录,继续对下一个词缀规则进行还原判断,否则直接对下一个词缀规则进行还原判断。
在所述5)中,对单词针对所述动词词缀构成规则库中的每一动词范畴构成规则进行还原判断包括步骤:
a)令指针指向动词范畴构成规则中的第一个范畴序号;
b)判断指针是否指向空:若是,则指针回溯,指向上一个范畴序号,继续f);否则,继续d);
c)判断指针是否指向空:若是,则继续对下一个动词范畴构成规则进行还原判断;否则,继续f);
d)根据当前单词的末字符,在指针指向的当前范畴序号对应的规则子库中提取第一个所含词缀的末字符为当前单词的末字符的词缀规则,继续e);
e)针对当前词缀规则,对当前单词进行分离:若根据当前词缀规则能将当前单词分离成词部与词缀两部分,则继续g);否则,判断当前规则子库中所含词缀的末字符为当前单词的末字符的全部词缀规则是否遍历完:若是,则指针回溯,指向上一个范畴序号,继续c);否则,继续f);
f)在指针指向的当前范畴序号对应的规则子库中,继续提取下一个所含词缀的末字符为当前单词的末字符的词缀规则,继续e);
g)按照当前词缀规则中的弱化字符还原式和添加字符将当前单词进行还原,并针对还原后得到的原形单词,在原形单词库中检索:若未检索到,则取出当前词缀规则中的追加词形特征属性,继续h);否则,检查是否满足当前词缀规则中的语法检查条件:若满足,则取出当前词缀规则中的追加词形特征属性,记录该单词在被成功还原的过程中从该动词范畴构成规则包含的范畴序号对应的各规则子库中取出的追加词形特征属性,继续所述6),否则,继续f);
h)将分离出的词部作为新单词,指针指向下一个范畴序号,继续b)。
所述原形单词库的原形单词文本文件中的每个原形单词有如下的内容:
·原形单词
·原形单词的语法分类和语义属性
·上下文区分函数
·原形单词的中文解释
·该原形单词的词组
并且,所述原形单词库建立首字符索引和原形单词索引文件来查找原形单词文本文件中的原形单词。
所述不规则变化形变单词库的不规则形变单词文本文件中的每个不规则形变单词有如下的内容:
·不规则形变单词
·原形单词
·追加词形特征属性
并且,不规则变化形变单词库建立不规则形变单词索引文件来查找不规则形变单词文本文件中的不规则形变单词。
所述动词词缀构成规则库用于存储动词范畴构成规则,各动词范畴构成规则在所述动词词缀构成规则库中,按照优先级从高到低的顺序依次排序,每一动词范畴构成规则由若干范畴序号构成,每一范畴序号与相应的动词范畴对应且该动词范畴与相应一规则子库对应。
所述范畴序号为1至9且分别代表态范畴、副动词范畴、时范畴、人称范畴、格范畴、复数范畴、动名词范畴、语气范畴、形动词范畴,且态范畴、副动词范畴、时范畴、人称范畴、格范畴、复数范畴、动名词范畴、语气范畴、形动词范畴分别与动词变化词缀规则库中的态集合规则子库、副动词词缀规则子库、时集合规则子库、人称集合规则子库、格集合规则子库、复数词缀规则子库、动名词词缀规则子库、语气词缀规则子库、形动词词缀规则子库相对应。
所述非动词变化词缀规则库和所述动词变化词缀规则库中建立有词缀文本文件,词缀文本文件用于存储词缀规则,每个词缀规则有如下的内容:
·词缀
·弱化字符还原式
·添加字符
·语法检查条件
·追加词形特征属性
并且,建立末字符索引来查找词缀文本文件中的词缀规则。
在所述6)中,所述单词内部结构包括原形单词、该原形单词具有的语法分类、在该语法分类下该原形单词具有的各语义属性及其中文解释,其中:所述追加词形特征属性作为语义属性记录在所述单词内部结构中。
在所述原形单词库中检索单词的步骤为:
A)基于该单词的首字符,通过所述首字符索引找到对应的所述原形单词索引文件;
B)在所述原形单词索引文件中基于二分算法查找该单词;
C)若没找到,则失败返回,否则继续D);
D)读出该单词在所述原形单词索引文件中记录的原形单词的字节数,根据该字节数在所述原形单词文本文件中读出该单词的信息;
E)结束。
在所述不规则变化形变单词库中检索单词的步骤为:
A)在所述不规则形变单词索引文件中基于二分算法查找该单词;
B)若没找到,则失败返回,否则继续C);
C)读出该单词在所述不规则形变单词索引文件中记录的不规则形变单词的字节数,根据该字节数在所述不规则形变单词文本文件中读出该单词的原形单词和追加词形特征属性;
D)结束。
本发明的优点是:
本发明可对维语单词进行正确、全面、快速地词法分析,针对维语单词识别出其各种词缀变化,获得其可能具有的原形单词及附加语义属性,有效解决了维语单词词缀变化的还原问题,以供维汉翻译系统中的分析-转换算法使用,为维汉翻译系统准确对维语句子进行中文翻译奠定了基础,并且还可供维汉电子词典使用,解决许多形变单词在维汉电子词典中无法查到的现象。
附图说明
图1是本发明的实现流程图。
图2是原形单词库的结构图。
图3是不规则变化形变单词库的结构图。
图4是动词词缀构成规则库的结构图。
图5是规则变化词缀规则库的结构图。
图6是单词内部结构的结构图。
具体实施方式
如图1,本发明维汉翻译系统的多层次维语词法分析方法包括如下步骤:
1)接收维语转写系统转换成的由若干字符构成的维语单词;
2)在原形单词库中检索该单词:若检索到,基于在原形单词库中对该单词的原形单词取出的语法分类、语义属性、中文解释,对该单词的原形单词生成单词内部结构,维语词法分析结束;否则,若未检索到,继续3);
3)在不规则变化形变单词库中检索该单词:若检索到,取出该单词的原形单词和追加词形特征属性并记录,继而基于在原形单词库中对该单词的原形单词取出的语法分类、语义属性、中文解释以及记录的追加词形特征属性,对该单词的原形单词生成单词内部结构,维语词法分析结束;否则,若未检索到,继续4);
4)在非动词变化词缀规则库中提取出所含词缀的末字符为该单词的末字符(单词的末字符指该单词的最后一个字符)的各词缀规则(即词缀规则中的词缀的末字符为该单词的末字符),并对该单词逐一针对各词缀规则进行还原判断:若存在成功将该单词还原成原形单词的词缀规则,则从该词缀规则中取出追加词形特征属性并记录,继而基于在原形单词库中对该单词的原形单词取出的语法分类、语义属性、中文解释以及记录的追加词形特征属性,对该单词的每一原形单词生成单词内部结构,维语词法分析结束;否则,若不存在成功将该单词还原成原形单词的词缀规则,继续5);
5)对该单词,针对动词词缀构成规则库中按优先级从高到低的顺序存储的各个动词范畴构成规则依次进行还原判断:当找到成功将该单词还原成原形单词的动词范畴构成规则时,记录该单词在被成功还原的过程中从该动词范畴构成规则包含的范畴序号对应的各规则子库中取出的追加词形特征属性,继而基于在原形单词库中对该单词的原形单词取出的语法分类、语义属性、中文解释以及记录的追加词形特征属性,对该单词的原形单词生成单词内部结构,维语词法分析结束;若不存在成功将该单词还原成原形单词的动词范畴构成规则,则报错处理,维语词法分析结束。
在本发明中,维语转写系统为已有的软件系统,其所做转换处理为公知技术,维语转写系统的转换处理即是将各维语单词以32个字母(26个拉丁字母以及自定义的6个字母——O、ō、ü)中的若干字母来表示,每个字母视为一个字符。自定义的6个字母并不局限于上述。
基于对维语的分析研究发现,在一定领域内,维语中的原形单词(又称基本单词)是有一定规模的,因此,本发明通过建立一个原形单词库来记录这些基本单词。但另一方面,在各种时、态、人称、格等范畴下,原形单词又有它的形变单词,而且有一部分原形单词的形变单词是不规则变化的,无规则可循,但这部分形变单词的数量有限,因此,本发明通过建立一个不规则变化形变单词库来记录这些不规则变化的形变单词。而有一部分原形单词的形变单词是规则变化的,这体现在这些原形单词末尾若干字符(末尾字符)的变化上,且数量不少,因此,本发明建立了一个规则变化词缀规则库来记录末尾这些字符的组合变化。
根据维语名词、副词等(除动词之外的一切单词)的形变特点,一方面它们的形变层次比较确定,一般不超过四层,规律性强,因此,本发明在规则变化词缀规则库中为这些单词建立了非动词变化词缀规则库,存储了这些单词的所有形式的词缀,如存储了名词的所有单式和复式词缀、形容词的各种形式的词缀等,因而简单高效地解决了维语中除动词以外的其它所有单词的形变问题。
根据维语动词的形变特点,一方面相当一部分数量的维语动词词缀构成复杂,词缀可以多层次地叠加来表示各种时、态、人称、格等范畴,一个复杂的动词的词干后面可以有八层范畴的词缀,因此,本发明建立了一个动词词缀构成规则库来归纳总结动词词缀的构成规律,以及在规则变化词缀规则库中为动词建立了动词变化词缀规则库,且在动词变化词缀规则库中按范畴分类又细分为9个库,分别为:态集合规则子库、副动词词缀规则子库、时集合规则子库、人称集合规则子库、格集合规则子库、复数词缀规则子库、动名词词缀规则子库、语气词缀规则子库、形动词词缀规则子库,分别表示各种动词范畴下动词末尾若干字符的组合形式,以灵活高效地解决维语动词的形变问题。
原形单词库用于存储维语中出现的所有原形单词及其信息,该信息包括语法分类和语义属性、中文解释。
原形单词库的原形单词文本文件中的每个原形单词有如下的内容:
·原形单词(以32个字母中的若干字符表示)
·原形单词的语法分类和语义属性(如以标识符形式存储)
·上下文区分函数
·原形单词的中文解释
·该原形单词的词组
并且,原形单词库建立首字符索引和原形单词索引文件来快速查找原形单词文本文件中的原形单词。首字符索引用于存储32个字母。每一字母与一原形单词索引文件对应,该原形单词索引文件中存储以该字母作为首字符的原形单词。原形单词索引文件用于存储原形单词以及该原形单词的字节数,原形单词文本文件用于存储原形单词的信息。原形单词索引文件中的每一原形单词与原形单词文本文件中存储的该原形单词的信息对应。
如图2,图2示出了原形单词库的结构。由于收录的原形单词较多,故其采用多级分类索引技术来实现,其中:第一级索引,即首字符索引,以维语中的32个字母作为分类符建立;第二级索引,即原形单词索引文件,按照原形单词的首字符建立32个原形单词索引文件,收集要收录的所有基本单词。每一个原形单词索引文件对应建立有一个原形单词文本文件。
首字符索引由首字符和该首字符对应的原形单词索引文件的首址两部分组成。只要知道原形单词的首字符,通过首字符就可知道该首字符对应的原形单词索引文件的首址,从而可在原形单词索引文件中从首址开始查找原形单词。
原形单词索引文件由原形单词、该原形单词的字节数和该原形单词在原形单词文本文件中的位置三部分组成,其中,原形单词的字节数是指该原形单词中所有信息的字节数。
在原形单词文本文件中,所有原形单词的信息都是顺序压缩存储的。在原形单词索引文件中找到该原形单词后,按照该原形单词的字节数和该原形单词在原形单词文本文件中的位置,便可直接从原形单词文本文件中获得该原形单词的信息。
如图2,在图2中的原形单词文本文件中,原形单词的信息即指原形单词的语法分类标识符和语义属性标识符、上下文区分函数、原形单词的中文解释以及原形单词的词组,其中,原形单词的语法分类是指按照原形单词词性分为名词、动词、介词、副词等,原形单词的语义属性是指在语法分类基础上,对单词性质进行进一步的属性划分,例如,名词按语义属性可进一步划分为专有名词、物质名词、抽象名词、所属格名词等,上下文区分函数用于说明在上下文语境中原形单词与前面和/或后面的原形单词组合使用的条件(本发明没有用到上下文区分函数),原形单词的词组用于说明该原形单词可以组合得到的所有词组。
在原形单词库中检索单词的步骤为:
A)基于该单词的首字符,通过首字符索引找到对应的原形单词索引文件;
B)在原形单词索引文件中基于二分算法查找该单词;
C)若没找到,则失败返回,否则继续D);
D)读出该单词在原形单词索引文件中记录的原形单词的字节数,根据该字节数在原形单词文本文件中读出该单词的信息(即原形单词的信息);
E)结束。
不规则变化形变单词库用于存储维语中出现的所有不规则变化的形变单词及其对应的原形单词、追加词形特征属性。
如图3,不规则变化形变单词库的不规则形变单词文本文件中的每个不规则形变单词有如下的内容:
·不规则形变单词(以32个字母中的若干字符表示)
·原形单词(以32个字母中的若干字符表示)
·追加词形特征属性(如以标识符形式存储)
并且,不规则变化形变单词库建立不规则形变单词索引文件来快速查找不规则形变单词文本文件中的不规则形变单词,其中的追加词形特征属性是根据单词的词缀对该单词追加的语义属性。
如图3,不规则变化形变单词库包括不规则形变单词索引文件和不规则形变单词文本文件两部分。不规则形变单词索引文件建立了不规则形变单词的快速分类表,表中包括不规则形变单词、不规则形变单词的字节数和不规则形变单词在文本文件中的位置。只要在不规则形变单词索引文件中查找到该不规则形变单词,就可知道该不规则形变单词在不规则形变单词文本文件中的首址,从而在不规则形变单词文本文件中从首址开始查找该不规则形变单词的信息。
在不规则变化形变单词库中检索单词的步骤为:
A)在不规则形变单词索引文件中基于二分算法查找该单词;
B)若没找到,则失败返回,否则继续C);
C)读出该单词在不规则形变单词索引文件中记录的不规则形变单词的字节数,根据该字节数在不规则形变单词文本文件中读出该单词的原形单词和追加词形特征属性(即不规则形变单词的信息);
D)结束。
如图4,动词词缀构成规则库用于存储表示动词词缀构成形式的动词范畴构成规则,每一动词范畴构成规则代表一个动词词缀的构成形式。各动词范畴构成规则在动词词缀构成规则库中,按照优先级从高到低的顺序依次排序(优先级是指维语单词中各动词词缀构成形式的出现概率),每一动词范畴构成规则由若干范畴序号按一定顺序构成,各范畴序号之间可用符号“-”分隔。
需要说明的是,在本发明中,设定第一个范畴序号的前面为空且最后一个范畴序号的后面为空。在本发明中,可对范畴序号进行如下设定,但并不局限于此。
每一范畴序号可与相应的一动词范畴对应且该动词范畴与相应一规则子库对应。例如,范畴序号可设定为1至9且分别代表态范畴、副动词范畴、时范畴、人称范畴、格范畴、复数范畴、动名词范畴、语气范畴、形动词范畴,且态范畴、副动词范畴、时范畴、人称范畴、格范畴、复数范畴、动名词范畴、语气范畴、形动词范畴分别与动词变化词缀规则库中的态集合规则子库、副动词词缀规则子库、时集合规则子库、人称集合规则子库、格集合规则子库、复数词缀规则子库、动名词词缀规则子库、语气词缀规则子库、形动词词缀规则子库相对应。
举例:
适用于单词qilduralaydighanliqigha还原的动词范畴构成规则为5-4-3-1-1,表示该单词qilduralaydighanliqigha的动词词缀构成形式为态范畴(对应范畴序号1,使动态,dur,收录在态集合规则子库中)+态范畴(对应范畴序号1,能动态,ala,收录在态集合规则子库中)+时范畴(对应范畴序号3,将来时,ydighanliq,收录在时集合规则子库中)+人称范畴(对应范畴序号4,第三人称,i,收录在人称集合规则子库中)+格范畴(对应范畴序号5,与格,gha,收录在格集合规则子库中)。而qil为词干且为原形,收录在原形单词库中。
在本发明中,规则变化词缀规则库包括动词变化词缀规则库和非动词变化词缀规则库,其中,动词变化词缀规则库包括态集合规则子库、时集合规则子库、人称集合规则子库、格集合规则子库、副动词词缀规则子库、形动词词缀规则子库、动名词词缀规则子库、复数词缀规则子库、语气词缀规则子库,共9个规则子库,是根据维语单词的各种格、人称、态、时等变化归纳总结出来的,各规则子库和非动词变化词缀规则库的结构构成相同,见图5所示。
非动词变化词缀规则库和动词变化词缀规则库中建立有词缀文本文件,词缀文本文件用于存储词缀规则,每条词缀规则有如下的内容:
·词缀(以32个字母中的若干字符表示)
·弱化字符还原式
·添加字符
·语法检查条件
·追加词形特征属性(如以标识符形式存储)
并且,建立有末字符索引来查找词缀文本文件中的词缀规则,词缀文本文件中存储的词缀规则按照相同末字符的词缀来组织存储在一起,其中:弱化字符还原式是将词缀中的字符进行还原的规则表达式;添加字符是当词缀按照弱化字符还原式还原后应在尾部添加的字符表达式;语法检查条件是含有语法分类的表达式,用于说明单词的词缀在依次经弱化字符还原式的还原处理、添加字符的添加处理后得到的原形单词应该满足的语法分类条件;追加词形特征属性是根据词缀(词形性质)对该单词追加的语义属性。
非动词变化词缀规则库的一词缀规则示例如下:
-ni#CC(L,(1,1),[i/a,i/e])#NP ACC
其中:“-”为起始符,ni为词缀。第一个“#”为分隔符。“CC(L,(1,1),[i/a,i/e])”为弱化字符还原式,表示词缀ni左边的第一个字符如果是i,则还原成a或e。第二个“#”的位置应为添加字符,此处的“#”代表尾部不用添加任何字符。“NP”为语法检查条件,此处表示对弱化字符还原后并添加完字符的单词在原形单词库中检索,若检索到,则继续对该单词进行是否为名词(NP为名词)的语法检查。“ACC”为追加词形特征属性,此处表示若单词进行语法检查后,满足名词要求,则记录追加的语义属性——ACC(宾格)。
人称集合规则子库的一词缀规则示例如下:
-im#CC(L,(1,2),[sm/sim]);CC(L,(1,3),[igh/aq])#NP S1
其中:“-”为起始符,im为词缀。第一个“#”为分隔符。“CC(L,(1,2),[sm/sim]);CC(L,(1,3),[igh/aq])”为弱化字符还原式,表示词缀im左边的第1至2个字符如果是sm,则还原成sim,并且,词缀im左边的第1至3个字符如果是igh,则还原成aq。第二个“#”的位置应为添加字符,此处的“#”代表尾部不用添加任何字符。“NP”为语法检查条件,此处表示对弱化字符还原后并添加完字符的单词在原形单词库中检索,若检索到,则继续对该单词进行是否为名词(NP表示名词)的语法检查。“S1”为追加词形特征属性,此处表示若单词进行语法检查后,满足名词要求,则记录追加的语义属性——S1(第一人称单数)。
态集合规则子库的一词缀规则示例如下:
-ala  #  #  VP ND
其中:“-”为起始符,ala为词缀。第一个“#”为分隔符。第二个“#”的位置应为添加字符,此处的“#”代表尾部不用添加任何字符。第一个“#”与第二个“#”之间为弱化字符还原式,此处为空,表示不需要进行弱化字符还原。“VP”为语法检查条件,此处表示不进行弱化字符还原且不添加字符,基于原形单词库检索到单词后,继续对该单词进行是否为动词(VP表示动词)的语法检查。“ND”为追加词形特征属性,此处表示若单词进行语法检查后,满足动词要求,则记录追加的语义属性——ND(能动态)。
时集合规则子库的一词缀规则示例如下:
-se  #  CC(L,(1,1),[i/a,i/e])#  VP IF,S3,PL3
其中:“-”为起始符,se为词缀。第一个“#”为分隔符。“CC(L,(1,1),[i/a,i/e])”为弱化字符还原式,表示词缀se左边的第一个字符如果是i,则还原成a或e。第二个“#”的位置应为添加字符,此处的“#”代表尾部不用添加任何字符。“VP”为语法检查条件,此处表示对弱化字符还原后并添加完字符的单词在原形单词库中检索,若检索到,则继续对该单词进行是否为动词的语法检查。“IF,S3,PL3”为追加词形特征属性,此处表示若单词进行语法检查后,满足动词要求,则记录追加的语义属性——IF(条件式)、S3(第三人称单数)和PL3(第三人称复数),且S3与PL3同时存在表示单复数同形。
在本发明中,单词内部结构包括原形单词、该原形单词具有的语法分类、在该语法分类下该原形单词具有的各语义属性及其中文解释,其中:追加词形特征属性作为另外添加的语义属性同样记录在单词内部结构中。
另外,单词内部结构还可包括原形单词的词组表达式,该词组表达式包括词组头部表达式、词组归约项、中文解释表达式,该词组归约项为该词组表达式的等效语法分类,该词组表达式为基于在原形单词库中对该单词的原形单词取出的词组进行的集成表达。
单词内部结构是本发明方法最后要生成的一种数据结构,在实际设计中,单词内部结构可使用链表结构来表示,但并不局限于此。链表的使用是为了更快速、方便地访问该单词的单词内部结构以及该单词的前后单词的单词内部结构。
如图6,链表形式的单词内部结构可由原形链表、属性链表、词组链表组成。原形链表用于存储单词原形,并指向该单词原形对应的前一个单词的单词内部结构中的原形链表、后一个单词的单词内部结构中的原形链表,以及指向该单词原形对应的属性链表、词组链表。
属性链表用于存储在一语法分类条件下,一个单词的所有语义属性及每一语义属性所对应的中文解释,所有语义属性之间用链表联接起来。
词组链表用于存储一个单词的所有词组表达式,各词组表达式之间用链表联接起来,每一词组表达式包括词组头部表达式、词组归约项和中文解释表达式,其中的词组头部表达式用来描述单词的固定搭配和语言现象。例如,某一词组表达式为:
xuddi NP(3,$HU)oxshash->|DP(),″像!NP一样″
其中:“xuddi NP(3,$HU)oxshash”为词组头部表达式,其含义为词部头部包含单词xuddi和oxshash,且xuddi之间oxshash可添加不超过3个单词且从整体上看,这些单词相当于名词(NP表示名词)成分但不是人称名词(HU表示人称,$表示不是)。“->|”为词组归约符。“DP()”为词组归约项,其含义为该词组头部表达式相当于副词(DP表示副词)。“″像!NP一样″”为中文解释表达式,其含义为该词组头部表达式的中文解释为像什么一样(NP表示名词性质的什么,“!”为提示符)。
在本发明中,每一个用于存储数据的库均应用人工智能技术中知识结构的链表结构和顺序存储相统一的方法来组织存储,存储的数据若涉及维语单词(原形单词、词缀等),则以字符形式(32个字符中的若干)来存储,且建立索引、索引文件等,采用HASH算法或快速分类算法对库中的单词进行快速查找,达到紧凑存储信息和快速访问的最佳统一。
在本发明的4)中,对该单词,针对在非动词变化词缀规则库中提取出的每一词缀规则进行还原判断包括步骤:
若根据当前词缀规则不可将该单词分离成词干与词缀两部分,则继续对下一个词缀规则进行还原判断;否则,若根据当前词缀规则可将该单词分离成词干与词缀两部分,则按照该词缀规则中的弱化字符还原式和添加字符将该单词进行还原,并针对还原后得到的原形单词,在原形单词库中检索:若未检索到,则继续对下一个词缀规则进行还原判断;若检索到,则检查是否满足该词缀规则中的语法检查条件,若满足,则取出该词缀规则中的追加词形特征属性并记录,继续对下一个词缀规则进行还原判断,否则直接对下一个词缀规则进行还原判断。
在本发明的5)中,对单词针对动词词缀构成规则库中的每一动词范畴构成规则进行还原判断包括步骤:
a)令指针指向动词范畴构成规则中的第一个范畴序号;
b)判断指针是否指向空:若是,表示该动词范畴构成规则中的所有范畴序号遍历完,则指针回溯,指向上一个范畴序号,继续f);否则,继续d);
c)判断指针是否指向空:若是,表示在该动词范畴构成规则中已回溯到首(即回溯到第一个范畴序号)并还原失败,则继续对下一个动词范畴构成规则进行还原判断;否则,继续f);
d)根据当前单词的末字符,在指针指向的当前范畴序号对应的规则子库中提取第一个所含词缀的末字符为当前单词的末字符的词缀规则,继续e);
e)针对当前词缀规则,对当前单词进行分离:若根据当前词缀规则能将当前单词分离成词部与词缀两部分,则继续g);否则,若根据该词缀规则不能将当前单词分离成词部与词缀两部分,则判断当前规则子库中所含词缀的末字符为当前单词的末字符的全部词缀规则是否遍历完:若是,即将当前规则子库中所含词缀的末字符为当前单词的末字符的所有词缀规则都遍历完,则指针回溯,指向上一个范畴序号,继续c);否则,继续f);
f)在指针指向的当前范畴序号对应的规则子库中,继续提取下一个所含词缀的末字符为当前单词的末字符的词缀规则,继续e);
g)按照当前词缀规则中的弱化字符还原式和添加字符将当前单词进行还原,并针对还原后得到的原形单词,在原形单词库中检索:若未检索到,则取出当前词缀规则中的追加词形特征属性,继续h);否则,若检索到,则检查是否满足当前词缀规则中的语法检查条件:若满足,则取出当前词缀规则中的追加词形特征属性,记录该单词在被成功还原的过程中从该动词范畴构成规则包含的范畴序号对应的各规则子库中取出的追加词形特征属性,继而基于在原形单词库中对该单词的原形单词取出的语法分类、语义属性、中文解释以及记录的所有追加词形特征属性,对该单词的原形单词生成单词内部结构,否则,若不满足,继续f);
h)将分离出的词部作为新单词,指针指向下一个范畴序号,继续b)。
需要提及的是,在动词范畴构成规则中,根据当前单词的末字符,在指针指向的当前范畴序号对应的规则子库中提取所含词缀的末字符为当前单词的末字符的词缀规则,是基于末字符索引来快速实现的。并且,在规则子库中提取的词缀规则中的词缀的末字符应为当前单词的末字符。
需要提及的是,从上述本发明方法可以看出,若单词不为动词,即为名词、副词或形容词等,则通过本发明方法进行词法分析后,可能存在两个或两个以上的原形单词,而若该单词为动词,则只会存在一个原形单词。
需要提及的是,对于一个单词,在针对一条动词范畴构成规则进行还原判断时,存在在遍历到该动词范畴构成规则的最后一个范畴序号之前便将该单词成功还原成原形单词的情形。因此,在本发明中,记录单词在被成功还原的过程中从动词范畴构成规则包含的范畴序号对应的各规则子库中取出的追加词形特征属性不涉及虽在遍历到某范畴序号对应的规则子库中的某词缀规则时被提取出但基于该词缀规则并没有将单词最终成功还原的那些追加词形特征属性,更不涉及未遍历的范畴序号对应的规则子库中的追加词形特征属性。
在实际运行时,当单词无原形单词时,会执行5)中的报错处理,其可有多种方式来执行:第一种是提醒用户单词输入有错,请修正;第二种是单词输入正确,库中未收录,由用户输入语法分类、语义属性、中文解释;第三种是按照默认语义属性生成单词内部结构。
下面举例说明本发明的实现过程。
例1:由维语转写系统对维语单词进行转换后得到achuq
执行2),便在原形单词库中检索到单词achuq,于是achuq即为原形单词,于是执行6),在原形单词库中取出单词achuq的语法分类、各语义属性及中文解释,生成单词内部结构,结束词法分析。
例2:由维语转写系统对维语单词进行转换后得到qilduralaydighanliqigha
执行2),在原形单词库中检索不到该单词,即判断出该单词不是原形单词,于是继续3)。
执行3),在不规则变化形变单词库中检索不到该单词,即判断出该单词不是不规则变化形变单词,于是继续4)。
执行4),在非动词变化词缀规则库中提取出相关的各词缀规则,这些词缀规则中的词缀的末字符为a,于是,遍历这些词缀规则并进行还原判断,结果是不存在能够将该单词成功分离成词干与词缀两部分的词缀规则,因此继续5)。
执行5),针对动词词缀构成规则库中存储的所有动词范畴构成规则,依次进行还原判断。
当遍历到动词范畴构成规则5-4-3-1-1时,首先指针指向第一个范畴序号5,于是在格集合规则子库(对应范畴序号5)中查找单词qilduralaydighanliqigha的词缀,结果找到了能将该单词分离成词部qilduralaydighanliqi与词缀gha的词缀规则,但对于通过该词缀规则进行弱化字符还原以及添加字符后得到的原形单词,不能在原形单词库中找到,于是取出该词缀规则中关于词缀gha的追加词形特征属性,并将qilduralaydighanliqi作为新的单词,使指针指向下一个范畴序号4。
于是继续在人称集合规则子库(对应范畴序号4)中查找单词qilduralaydighanliqi的词缀,结果找到了能将该单词分离成词部qilduralaydighanliq与词缀i的词缀规则,但对于通过该词缀规则进行弱化字符还原以及添加字符后得到的原形单词,不能在原形单词库中找到,于是取出该词缀规则中关于词缀i的追加词形特征属性,并将qilduralaydighanliq作为新的单词,使指针指向下一个范畴序号3。
于是继续在时集合规则子库(对应范畴序号3)中查找单词qilduralaydighanliq的词缀,结果找到了能将该单词分离成词部qildurala与词缀ydighanliq的词缀规则,但对于通过该词缀规则进行弱化字符还原以及添加字符后得到的原形单词,不能在原形单词库中找到,于是取出该词缀规则中关于词缀ydighanliq的追加词形特征属性,并将qildurala作为新的单词,使指针指向下一个范畴序号1。
于是继续在态集合规则子库(对应范畴序号1)中查找单词qildurala的词缀,结果找到了能将该单词分离成词部qildur与词缀alay的词缀规则,但对于通过该词缀规则进行弱化字符还原以及添加字符后得到的原形单词,不能在原形单词库中找到,于是取出该词缀规则中关于词缀alay的追加词形特征属性,并将qildur作为新的单词,使指针指向下一个范畴序号1。
于是继续在态集合规则子库(对应范畴序号1)中查找单词qildur的词缀,结果找到了能将该单词分离成词部qil与词缀dur的词缀规则,且对于通过该词缀规则进行弱化字符还原以及添加字符后得到的原形单词qil(词干即为qil),在原形单词库中检索到了,并且,满足该词缀规则中的语法检查条件,于是取出该词缀规则中关于词缀dur的追加词形特征属性。
于是,基于将成功还原单词过程中从范畴序号5、4、3、1、1对应的各规则子库中取出的上述各个追加词形特征属性(上述各个追加词形特征属性均属于单词被成功还原过程中取出的追加词形特征属性),以及在原形单词库中对原形单词qil取出的语法分类、语义属性、中文解释,生成原形单词qil的单词内部结构。
需要说明的是,假设在遍历到上述动词范畴构成规则5-4-3-1-1中的3时,遍历完时集合规则子库中的所有相关词缀规则,但未找到能将当前单词分离成功的词缀规则,则指针回溯,指向上一个范畴序号4,对人称集合规则子库中上次未遍历完的词缀规则(词缀规则中的词缀末字符为i)继续进行遍历。
又假设在遍历到上述动词范畴构成规则5-4-3-1-1中的4时,遍历到人称集合规则子库中的某一相关词缀规则时,基于该词缀规则能将当前单词分离成功,且经词缀规则中的弱化字符还原式和添加字符将当前单词还原后能够在原形单词库中检索到当前单词还原得到的原形单词,但不满足词缀规则中的语法检查条件,则继续对人称集合规则子库中余下的词缀规则(词缀规则中的词缀末字符为i)继续进行遍历。
需要说明的是,在本发明中,当回溯到首,即指针指向第一个范畴序号前的空时,表示该条动词范畴构成规则无法使用,于是应继续对下一条动词范畴构成规则进行还原判断。
本发明可对维语单词进行正确、全面、快速地词法分析,针对维语单词识别出其各种词缀变化,获得其可能具有的原形单词及附加语义属性,有效解决了维语单词词缀变化的还原问题,以供维汉翻译系统中的分析-转换算法使用,为维汉翻译系统准确对维语句子进行中文翻译奠定了基础,并且还可供维汉电子词典使用,解决许多形变单词在维汉电子词典中无法查到的现象。
以上所述是本发明的较佳实施例及其所运用的技术原理,对于本领域的技术人员来说,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案基础上的等效变换、简单替换等显而易见的改变,均属于本发明保护范围之内。

Claims (9)

1.一种维汉翻译系统的多层次维语词法分析方法,其特征在于,它包括如下步骤:
1)接收维语转写系统转换成的由若干字符构成的维语单词;
2)在原形单词库中检索该单词:若检索到,继续6);否则,继续3);
3)在不规则变化形变单词库中检索该单词:若检索到,取出该单词的原形单词和追加词形特征属性并记录,继续6);否则,继续4);
4)在非动词变化词缀规则库中提取出所含词缀的末字符为该单词的末字符的各词缀规则,并对该单词逐一针对各词缀规则进行还原判断:若存在成功将该单词还原成原形单词的词缀规则,则从该词缀规则中取出追加词形特征属性并记录,继续6);否则,继续5);
5)对该单词针对动词词缀构成规则库中的各个动词范畴构成规则依次进行还原判断:当找到成功将该单词还原成原形单词的动词范畴构成规则时,记录该单词在被成功还原的过程中从该动词范畴构成规则包含的范畴序号对应的各规则子库中取出的追加词形特征属性,继续6);若不存在成功将该单词还原成原形单词的动词范畴构成规则,则报错处理,继续7);
6)基于在原形单词库中对该单词的原形单词取出的语法分类、语义属性、中文解释以及记录的追加词形特征属性,对该单词的每一原形单词生成单词内部结构;
7)维语词法分析结束。
2.如权利要求1所述的多层次维语词法分析方法,其特征在于:
在所述4)中,对该单词,针对在所述非动词变化词缀规则库中提取出的每一词缀规则进行还原判断包括步骤:
若根据当前词缀规则不可将该单词分离成词干与词缀两部分,则继续对下一个词缀规则进行还原判断;否则,按照该词缀规则中的弱化字符还原式和添加字符将该单词进行还原,并针对还原后得到的原形单词,在原形单词库中检索:若未检索到,则继续对下一个词缀规则进行还原判断;若检索到,则检查是否满足该词缀规则中的语法检查条件,若满足,则取出该词缀规则中的追加词形特征属性并记录,继续对下一个词缀规则进行还原判断,否则直接对下一个词缀规则进行还原判断。
3.如权利要求1所述的多层次维语词法分析方法,其特征在于:
在所述5)中,对单词针对所述动词词缀构成规则库中的每一动词范畴构成规则进行还原判断包括步骤:
a)令指针指向动词范畴构成规则中的第一个范畴序号;
b)判断指针是否指向空:若是,则指针回溯,指向上一个范畴序号,继续f);否则,继续d);
c)判断指针是否指向空:若是,则继续对下一个动词范畴构成规则进行还原判断;否则,继续f);
d)根据当前单词的末字符,在指针指向的当前范畴序号对应的规则子库中提取第一个所含词缀的末字符为当前单词的末字符的词缀规则,继续e);
e)针对当前词缀规则,对当前单词进行分离:若根据当前词缀规则能将当前单词分离成词部与词缀两部分,则继续g);否则,判断当前规则子库中所含词缀的末字符为当前单词的末字符的全部词缀规则是否遍历完:若是,则指针回溯,指向上一个范畴序号,继续c);否则,继续f);
f)在指针指向的当前范畴序号对应的规则子库中,继续提取下一个所含词缀的末字符为当前单词的末字符的词缀规则,继续e);
g)按照当前词缀规则中的弱化字符还原式和添加字符将当前单词进行还原,并针对还原后得到的原形单词,在原形单词库中检索:若未检索到,则取出当前词缀规则中的追加词形特征属性,继续h);否则,检查是否满足当前词缀规则中的语法检查条件:若满足,则取出当前词缀规则中的追加词形特征属性,记录该单词在被成功还原的过程中从该动词范畴构成规则包含的范畴序号对应的各规则子库中取出的追加词形特征属性,继续所述6),否则,继续f);
h)将分离出的词部作为新单词,指针指向下一个范畴序号,继续b)。
4.如权利要求1所述的多层次维语词法分析方法,其特征在于:
所述原形单词库的原形单词文本文件中的每个原形单词有如下的内容:
·原形单词
·原形单词的语法分类和语义属性
·上下文区分函数
·原形单词的中文解释
·该原形单词的词组
并且,所述原形单词库建立首字符索引和原形单词索引文件来查找原形单词文本文件中的原形单词;
所述不规则变化形变单词库的不规则形变单词文本文件中的每个不规则形变单词有如下的内容:
·不规则形变单词
·原形单词
·追加词形特征属性
并且,不规则变化形变单词库建立不规则形变单词索引文件来查找不规则形变单词文本文件中的不规则形变单词;
所述动词词缀构成规则库用于存储动词范畴构成规则,各动词范畴构成规则在所述动词词缀构成规则库中,按照优先级从高到低的顺序依次排序,每一动词范畴构成规则由若干范畴序号构成,每一范畴序号与相应的动词范畴对应且该动词范畴与相应一规则子库对应。
5.如权利要求1或4所述的多层次维语词法分析方法,其特征在于:
所述范畴序号为1至9且分别代表态范畴、副动词范畴、时范畴、人称范畴、格范畴、复数范畴、动名词范畴、语气范畴、形动词范畴,且态范畴、副动词范畴、时范畴、人称范畴、格范畴、复数范畴、动名词范畴、语气范畴、形动词范畴分别与动词变化词缀规则库中的态集合规则子库、副动词词缀规则子库、时集合规则子库、人称集合规则子库、格集合规则子库、复数词缀规则子库、动名词词缀规则子库、语气词缀规则子库、形动词词缀规则子库相对应。
6.如权利要求5所述的多层次维语词法分析方法,其特征在于:
所述非动词变化词缀规则库和所述动词变化词缀规则库中建立有词缀文本文件,词缀文本文件用于存储词缀规则,每个词缀规则有如下的内容:
·词缀
·弱化字符还原式
·添加字符
·语法检查条件
·追加词形特征属性
并且,建立末字符索引来查找词缀文本文件中的词缀规则。
7.如权利要求1所述的多层次维语词法分析方法,其特征在于:
在所述6)中,所述单词内部结构包括原形单词、该原形单词具有的语法分类、在该语法分类下该原形单词具有的各语义属性及其中文解释,其中:所述追加词形特征属性作为语义属性记录在所述单词内部结构中。
8.如权利要求1所述的多层次维语词法分析方法,其特征在于:
在所述原形单词库中检索单词的步骤为:
A)基于该单词的首字符,通过所述首字符索引找到对应的所述原形单词索引文件;
B)在所述原形单词索引文件中基于二分算法查找该单词;
C)若没找到,则失败返回,否则继续D);
D)读出该单词在所述原形单词索引文件中记录的原形单词的字节数,根据该字节数在所述原形单词文本文件中读出该单词的信息;
E)结束。
9.如权利要求1所述的多层次维语词法分析方法,其特征在于:
在所述不规则变化形变单词库中检索单词的步骤为:
A)在所述不规则形变单词索引文件中基于二分算法查找该单词;
B)若没找到,则失败返回,否则继续C);
C)读出该单词在所述不规则形变单词索引文件中记录的不规则形变单词的字节数,根据该字节数在所述不规则形变单词文本文件中读出该单词的原形单词和追加词形特征属性;
D)结束。
CN201410459155.1A 2014-09-10 2014-09-10 维汉翻译系统的多层次维语词法分析方法 Active CN104239295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410459155.1A CN104239295B (zh) 2014-09-10 2014-09-10 维汉翻译系统的多层次维语词法分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410459155.1A CN104239295B (zh) 2014-09-10 2014-09-10 维汉翻译系统的多层次维语词法分析方法

Publications (2)

Publication Number Publication Date
CN104239295A true CN104239295A (zh) 2014-12-24
CN104239295B CN104239295B (zh) 2017-01-18

Family

ID=52227391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410459155.1A Active CN104239295B (zh) 2014-09-10 2014-09-10 维汉翻译系统的多层次维语词法分析方法

Country Status (1)

Country Link
CN (1) CN104239295B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977364A (zh) * 2017-12-30 2018-05-01 科大讯飞股份有限公司 维语子词切分方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681985A (zh) * 2012-05-16 2012-09-19 中国科学院计算技术研究所 一种面向形态丰富语言的翻译方法和系统
CN103164398A (zh) * 2011-12-19 2013-06-19 新疆新能信息通信有限责任公司 汉维电子辞典及其自动转译汉维语的方法
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164398A (zh) * 2011-12-19 2013-06-19 新疆新能信息通信有限责任公司 汉维电子辞典及其自动转译汉维语的方法
CN102681985A (zh) * 2012-05-16 2012-09-19 中国科学院计算技术研究所 一种面向形态丰富语言的翻译方法和系统
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BATUER AISHA ET AL.: "Uyghur-Chinese Statistical Machine Translation by Incorporating Morphological Information", 《JOURNAL OF COMPUTATIONAL INFORMATION SYSTEMS》 *
麦热哈巴·艾力 等: "一种提高维吾尔语-汉语词语对齐的方法研究", 《小型微型计算机系统》 *
麦热哈巴·艾力 等: "维吾尔语词法分析的有向图模型", 《软件学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977364A (zh) * 2017-12-30 2018-05-01 科大讯飞股份有限公司 维语子词切分方法及装置
CN107977364B (zh) * 2017-12-30 2022-02-25 科大讯飞股份有限公司 维语子词切分方法及装置

Also Published As

Publication number Publication date
CN104239295B (zh) 2017-01-18

Similar Documents

Publication Publication Date Title
CN109284352B (zh) 一种基于倒排索引的评估类文档不定长词句的查询方法
CN105608218B (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
US8239188B2 (en) Example based translation apparatus, translation method, and translation program
US20070156404A1 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US20120047172A1 (en) Parallel document mining
CN103365992B (zh) 一种基于一维线性空间实现Trie树的词典检索方法
NL9201684A (nl) Werkwijze voor het identificeren, herverkrijgen en sorteren van documenten.
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
WO2017166626A1 (zh) 归一化方法、装置和电子设备
US20090307183A1 (en) System and Method for Transmission of Communications by Unique Definition Identifiers
Jayan et al. A hybrid statistical approach for named entity recognition for malayalam language
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
Yan et al. Chemical name extraction based on automatic training data generation and rich feature set
Soori et al. Text similarity based on data compression in Arabic
Pak et al. The impact of text representation and preprocessing on author identification
Peng et al. Research on tree kernel-based personal relation extraction
CN104239294B (zh) 藏汉翻译系统的多策略藏语长句切分方法
CN104239295B (zh) 维汉翻译系统的多层次维语词法分析方法
CN102567424B (zh) 一种诗词关联库系统及其实现方法和电子学习设备
Shekhar et al. Linguistic structural framework for encoding transliteration variants for word origin detection using bilingual lexicon
Chen et al. Efficient automatic OCR word validation using word partial format derivation and language model
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP5184195B2 (ja) 言語処理装置およびプログラム
JP4567025B2 (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant