CN104239294A - 藏汉翻译系统的多策略藏语长句切分方法 - Google Patents

藏汉翻译系统的多策略藏语长句切分方法 Download PDF

Info

Publication number
CN104239294A
CN104239294A CN201410458322.0A CN201410458322A CN104239294A CN 104239294 A CN104239294 A CN 104239294A CN 201410458322 A CN201410458322 A CN 201410458322A CN 104239294 A CN104239294 A CN 104239294A
Authority
CN
China
Prior art keywords
word
feature words
cutting
composition
comma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410458322.0A
Other languages
English (en)
Other versions
CN104239294B (zh
Inventor
黄河燕
黄静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Beijing Institute of Technology BIT
Original Assignee
ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd, Beijing Institute of Technology BIT filed Critical ETONG LANGUAGE TECHNOLOGY (BEIJING) Co Ltd
Priority to CN201410458322.0A priority Critical patent/CN104239294B/zh
Publication of CN104239294A publication Critical patent/CN104239294A/zh
Application granted granted Critical
Publication of CN104239294B publication Critical patent/CN104239294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种用于藏汉翻译系统的、对复杂藏语长句进行快速、准确切分的多策略藏语长句切分方法,它包括:接收藏语长句,对每一成分逐个判断,若成分为数字或特殊符号、逗号但无源文模式匹配成功且模式条件满足的逗号切分实例、单词但在特征词索引表中检索不到,或者检索到然而无源文模式匹配成功且模式条件满足的特征词切分实例,则继续判断下一成分,否则记录切分点,切分点之前成分作为切分子句送出,继续判断余下第一个成分。在判断各成分之前先要判断指针当前是否指向空,若是则将余下成分送出结束,否则读取指针当前指向的成分。

Description

藏汉翻译系统的多策略藏语长句切分方法
技术领域
本发明涉及一种用于藏汉翻译系统的、基于多策略对藏语长句进行切分的方法,属于基于计算机科学的语言处理与分析领域。
背景技术
藏文是一门古老而独特的语言,它具有独特的标点符号体系,不同于其他文字的标点符号。藏语的标点符号数量是很有限的,只有7种——音节点、单垂符、双垂符、四垂符、蛇形垂符、聚宝垂符、云头符,见下表1所示。
表1
在表1中,“音节点”是划开音节,使藏文字之间的界线不混淆的一种符号。“单垂符”是表示词语或句子之间的并列、停顿或结束的符号,相当于汉语标点符号中的顿号、逗号、分号或句号。藏语无专门的问号和感叹号,一个句子的语调全靠文字表达。表1中的其它五种标点符号用得不太多,一般用来标明藏语句首、段首、章结尾等。
藏语标点符号具有特殊性和复杂性,最常用的是“单垂符”,其主要用于句末,也用于词或者短语之后,功能上相当于汉语标点符号中的顿号、逗号、分号、句号。一方面,有些“单垂符”表示的是顿号、逗号的作用,不能简单作为分句的标志,另一方面,藏文句子中的“单垂符”可以省略,所以藏语中长句情况很普遍,有些句子最长可达到百来个词时才出现一个“单垂符”。
下面列举一个例子(在该例子中,鉴于清晰表达,各藏文字由转写系统转换为若干拉丁字母、数字或特殊符号表示,各藏语标点符号由转写系统转换为相应汉语标点符号表示、做相应省略或回车处理,其中,例如“音节点”以空格表示,“单垂符”以逗号表示):
las zhugs bod skyor thad don dngos bsgrubs pa dang bod kyi mtho slob slobthon slob ma nang sar las ka byed par bskyod rgyuvi khrid ston hur thag byas nasbod skyor zhing chen dang grong khyer dang krung dbyang gi rkang vdzin khe lasla mthun sbyor gyis lo ltar skye khungs bod nas yin pavi mtho slob slob thon slobma 100yi las zhugs bkod sgrig bya rgyu bcas byed dgos,
上面例子中只在句末有一个“单垂符”,仅出现了“音节点”和“单垂符”,其汉语意思应为:“在援藏就业方面完成的实事,对西藏高校毕业生去内地工作努力进行指导,援藏省份和城市及中央骨干企业协同对100个西藏生源的高校毕业生做就业安排,”。
由此可见,面对藏语中的众多长句,如何提高藏汉翻译的处理速度以及确保翻译的正确性是翻译系统需要考虑的问题。而现如今已有的大多藏汉翻译系统都或多或少的存在着翻译速度慢或翻译正确率低的缺陷。
因此,鉴于藏语标点符号的特殊性和复杂性以及藏语长句存在的普遍性,设计出一种可快速、准确对藏语长句进行有效切分的技术方案,是目前急需解决的问题。
发明内容
本发明的目的在于提供一种对复杂的藏语长句进行快速、准确切分的多策略藏语长句切分方法,该方法可用于藏汉翻译系统中,以提高藏汉翻译处理的速度和正确性。
为了实现上述目的,本发明采用了以下技术方案:
一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:
1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号,当前长句中的成分个数大于15;
2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;
3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);
4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);
5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);
6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2)。
逗号切分规则实例库用于存储所述逗号切分实例,逗号切分实例包括一源文模式和一模式条件;
特征词切分规则实例库用于存储所述特征词索引表、所述特征词切分实例表,所述特征词索引表用于存储特征词,所述特征词切分实例表用于存储特征词切分实例,每一特征词对应有至少一特征词切分实例,每一特征词切分实例包括一源文模式和一模式条件。
所述特征词切分规则实例库还存储有首字母索引,首字母索引用于存储26个拉丁字母,每一拉丁字母与所述特征词索引表中以该拉丁字母作为首字母的特征词相对应。
所述特征词是自身附近成分可能作为切分点的单词;
所述逗号切分实例的所述源文模式是含有逗号和切分位置的成分表达式,用于说明逗号在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置;
所述特征词切分实例的所述源文模式是含有特征词和切分位置的成分表达式,用于说明特征词在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置;
对于所述逗号切分实例和所述特征词切分实例,所述模式条件是含有多个上下文语境条件判断式的集成表达式,用于说明该模式条件对应的源文模式使用时应该满足的各上下文语境条件。
在实际中,检查当前成分是否满足逗号切分实例中的模式条件以及检查当前成分是否满足特征词切分实例中的模式条件,是基于藏文字典库进行的;藏文字典库的单词文本文件中的每个单词有如下内容:
·单词
·单词的语法分类和语义属性
·上下文区分函数
·单词的中文解释
·单词的词组
并且,藏文字典库建立首字母索引和单词索引文件来查找单词文本文件中的单词。
在实际应用中,所述上下文语境条件包括对切分点前和/或后指定长度范围内的成分判断、对切分点前和/或后指定长度范围内的单词所属语法分类和/或语义属性的判断。
访问所述藏文字典库的步骤为:
1)基于单词的首字母,通过所述首字母索引找到对应的所述单词索引文件;
2)在所述单词索引文件中基于二分算法查找该单词;
3)若没找到,则失败返回,否则继续4);
4)读出该单词的字节数,根据该单词的字节数在所述单词文本文件中读出该单词的信息;
5)结束。
在送出切分子句时,当判断切分子句的成分个数超过阈值个数时,提醒用户注意是否特征词切分规则实例库不完善,需要收入新的特征词切分实例来完善。
本发明的优点是:
本发明有机地融合了源文模式匹配和模式条件满足等策略,综合利用了藏语句子的多种相关语言特征,包括长度、标点符号、特征词和上下文语境条件,实现了对复杂藏语长句进行快速、有效地切分,切分准确性高,有效地降低了藏语长句的句法分析复杂度,提高了藏汉翻译处理的速度和正确性。
本发明的这种切分方法可扩展用于其它语种长句的切分中。
附图说明
图1是本发明的实现流程图。
图2是特征词切分规则实例库的结构图。
图3是藏文字典库的结构图。
具体实施方式
如图1,本发明多策略藏语长句切分方法用于藏汉翻译系统,它包括步骤:
1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,初始令指针指向第一个成分,各成分为一单词(即由相应若干拉丁字母表示的藏文字)或一数字(此处的数字应是指一个完整的数字,如长句中出现20,则此处数字应是指20,而不是数字2和数字0)或一逗号(因转写系统的转换特点,转换处理后得到的当前长句中仅包含逗号这一汉语标点符号)或一特殊符号(如#、&、§等,在本发明中,将藏文字、数字、逗号、空格以外的符号均视为特殊符号),长句中的成分个数大于15;
2)判断指针是否指向空:若是,则表示此时指针移动到最后一个成分后面,无任何成分,于是将当前剩余成分作为切分子句送出,藏语长句切分结束;否则,读取指针指向的成分;
3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);
4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,则记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);
5)此时表示该成分为单词,于是在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);
6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,则记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2)。
在本发明中,转写系统为已有的软件系统,其所做转换处理为公知技术,转写系统的转换处理即是将各藏文字以相应若干拉丁字母、数字或特殊符号来表示,各标点符号由相应汉语标点符号表示、省略或以回车处理,例如,音节点转换为空格,单垂符转换为逗号,双垂符、四垂符以回车符处理,蛇形垂符、聚宝垂符、云头符做省略处理,等等。转换后的各成分之间以空格分隔。在实际转换处理过程中还会存在其它各种情况,此属于公知内容,故不再列举详述。但需要提及的是,经过转写系统对接收的藏语长句进行转换处理后,长句中仅会出现单词、数字、特殊符号、空格和逗号。
在实际运行中,本发明还可以下面的步骤来表述:
步骤1:由转写系统对接收的藏语长句进行转换,设转换后得到的当前长句为w1w2w3......wn,其中,成分wi为一个单词或一个数字或一个逗号或一个特殊符号,即当前长句从左至右由w1、w2、w3、......、wn共n个成分构成,各成分之间以空格分隔,n为大于15的正整数;
步骤2:设循环变量i的初始值为1,设当前切分起始位置s为1;
步骤3:判断循环变量i是否等于n+1:
如果循环变量i等于n+1,则将wsws+1......wn送入藏汉翻译系统,跳至步骤10;反之,如果循环变量i不等于n+1,则从当前长句中读取成分wi
步骤4:判断当前成分wi是否为数字或特殊符号:如果不是数字或特殊符号,则继续步骤5;如果是数字或特殊符号,则令循环变量i增加1,并重复执行步骤3;
步骤5:判断当前成分wi是否为逗号:如果不是逗号,则转至步骤7;如果是逗号,则在逗号切分规则实例库中取出逗号切分实例,进行源文模式匹配:如果匹配成功,则继续步骤6;如果匹配不成功,则令循环变量i增加1,并转至步骤3;
步骤6:检查当前成分wi,即逗号是否满足匹配成功的逗号切分实例中的模式条件:如果满足该模式条件,则按照匹配成功的源文模式中示出的切分位置记录切分点wj,将wsws+1ws+2......wj送入藏汉翻译系统,同时令s置为j+1,令i置为j+1,继续对wj+1wj+2wj+3......wn进行切分,转至步骤3;否则,即如果不满足该模式条件,则令循环变量i增加1,并转至步骤3;
步骤7:以当前成分wi对应表示的若干拉丁字母为检索对象,在特征词切分规则实例库的特征词索引表中检索当前成分wi:如果检索到,即找到当前成分wi,则继续步骤8,反之,如果没有找到当前成分wi,则令循环变量i增加1,并重复执行步骤3;
步骤8:在特征词切分规则实例库的特征词切分实例表中取出当前成分wi对应的所有特征词切分实例,对各个特征词切分实例逐一进行源文模式匹配:
对各特征词切分实例逐一进行源文模式匹配过程中,当找到针对当前成分wi进行源文模式匹配成功的特征词切分实例时,则继续执行步骤9;
如果对所有特征词切分实例的源文模式进行完匹配但未找到针对当前成分wi进行源文模式匹配成功的特征词切分实例,则令循环变量i增加1,并转至步骤3;
步骤9:检查当前成分wi是否满足匹配成功的特征词切分实例中的模式条件:如果满足该模式条件,则按照匹配成功的源文模式中示出的切分位置记录切分点wj,将wsws+1ws+2......wj送入藏汉翻译系统,同时令s置为j+1,令i置为j+1,继续对wj+1wj+2wj+3......wn进行切分,转至步骤3;否则,即如果不满足该模式条件,则令循环变量i增加1,并转至步骤3;
步骤10:当前藏语长句切分结束。
需要说明的是,源文模式中示出的切分位置(由#2表示)不一定位于特征词的后面,也可能位于特征词的前面,因此,在步骤6、9中,切分点wj不一定就是wi,j可能小于i,j也有可能大于i。
需要说明的是,在实际运行中,在送出切分子句时,当判断切分子句的成分个数超过阈值个数(如40个)时,表示没有对该切分子句进行有效切分,于是要提醒用户注意是否特征词切分规则实例库不完善,需要收入新的特征词切分实例来完善。
逗号切分规则实例库用于存储逗号切分实例,逗号对应有一逗号切分实例,逗号切分实例包括一源文模式和一模式条件,源文模式与模式条件之间通过规约符“->”连接并加以区分开。
特征词切分规则实例库采用多级分类算法建立,用于存储特征词索引表、特征词切分实例表,特征词索引表用于存储特征词,特征词切分实例表用于存储特征词切分实例,每一特征词对应有至少一特征词切分实例,每一特征词切分实例包括一源文模式和一模式条件,源文模式与模式条件之间通过规约符“->”连接并加以区分开。
特征词切分规则实例库还存储有首字母索引,首字母索引用于存储26个拉丁字母,每一拉丁字母与特征词索引表中以该拉丁字母作为首字母的特征词相对应。
特征词是自身附近成分可能作为切分点的单词。
逗号切分实例的源文模式是含有逗号和切分位置的成分表达式,用于说明逗号在源文句子中作为切分点时应该满足的源文特征条件以及示出切分位置。
特征词切分实例的源文模式是含有特征词和切分位置的成分表达式,用于说明特征词在源文句子中作为切分点时应该满足的源文特征条件以及示出切分位置。
对于逗号切分实例和特征词切分实例,模式条件是含有多个上下文语境条件判断式的集成表达式,用于说明该模式条件对应的源文模式使用时应该满足的各上下文语境条件。
如图2,图中示出了特征词切分规则实例库的结构。
访问特征词切分规则实例库的步骤为:
1)基于单词的首字母,通过首字母索引在特征词索引表中找到具有相同首字母的特征词;
2)在具有相同首字母的特征词中基于二分算法查找该单词;
3)若没找到,则失败返回,否则继续4);
4)在特征词切分实例表中读取出该单词对应的所有特征词切分实例;
5)结束。
下面给出了一个特征词切分实例的示例:
$ched
ched la<,>#2->S(L,(1,1),VP),NS(L,(2,2),[gyi;gi;kyi;yi]),NS(L,(2,2),NP(XUL))|
在上述特征词切分实例中:
“ched la<,>#2”为源文模式,表示特征词ched所在源文句子中的源文特征条件应为“ched la,”或“ched la”。
“#2”表示切分位置,说明如果进行切分时,应在“la”或“,”后进行切分。
“->”为规约符。“|”为结束符。
“S(L,(1,1),VP),NS(L,(2,2),[gyi;gi;kyi;yi]),NS(L,(2,2),NP(XUL))”为模式条件,其具有三个上下文语境条件,分别为“S(L,(1,1),VP)”、“NS(L,(2,2),[gyi;gi;kyi;yi])”、“NS(L,(2,2),NP(XUL))”。其中,L,(1,1)表示从特征词向左数第1个,S()表示有或是,NS()表示没有或不是,S(L,(1,1),VP)表示从特征词向左数第1个成分是动词(VP表示动词)成分,NS(L,(2,2),[gyi;gi;kyi;yi])表示从特征词向左数第2个成分不是gyi、gi、kyi和yi成分,NS(L,(2,2),NP(XUL))表示从特征词向左数第2个成分不是所属格名词(NP表示名词,XUL表示所属格)成分。
也就是说,对于特征词ched,如果其所在源文为“ched la,”,且同时满足上述三个上下文语境条件,则将切分点定为“,”,同理,如果其所在源文为“ched la”,且同时满足上述三个上下文语境条件,则将切分点定为“la”。
逗号切分实例与上述特征词切分实例的表达方式、涵义基本相同,故不再在这里举例。
在实际运行中,检查当前成分是否满足逗号切分实例中的模式条件以及检查当前成分是否满足特征词切分实例中的模式条件,是基于藏文字典库进行的。
藏文字典库的单词文本文件中的每个单词有如下内容:
·单词(即藏文字所转换成的若干拉丁字母)
·单词的语法分类和语义属性(如以标识符形式存储)
·上下文区分函数
·单词的中文解释
·单词的词组
并且,藏文字典库建立便于检索的首字母索引和单词索引文件来查找单词文本文件中的单词。首字母索引用于存储26个拉丁字母,每一拉丁字母与一单词索引文件对应,该单词索引文件中存储以该拉丁字母作为首字母的单词。单词索引文件用于存储单词以及该单词的字节数,单词文本文件用于存储单词的信息。单词索引文件中的每一单词与单词文本文件中存储的该单词的信息对应。
在实际设计中,优选地,上下文语境条件可包括对切分点前和/或后指定长度范围内的成分判断、对切分点前和/或后指定长度范围内的单词所属语法分类和/或语义属性的判断。
如图3,图3示出了藏文字典库的结构。由于藏文字典库收录的单词较多,故其采用多级分类索引技术来实现,其中:第一级索引,即首字母索引,以藏语中的26个拉丁字母(a-z)作为分类符建立;第二级索引,即单词索引文件,按照单词的首字母(a-z)建立26个单词索引文件,收集要收录的所有基本单词。每一个单词索引文件对应建立有一个单词文本文件。
首字母索引由索引字符和该索引字符对应的单词索引文件的首址两部分组成。只要知道单词的首字符,通过索引字符就可知道该首字符对应的单词索引文件的首址,从而可在单词索引文件中从首址开始查找单词。
单词索引文件由单词、该单词的字节数和该单词在单词文本文件中的位置三部分组成,其中,单词的字节数是指该单词中所有信息的字节数。
在单词文本文件中,所有单词的信息都是顺序压缩存储的。在单词索引文件中找到该单词后,按照该单词的字节数和该单词在单词文本文件中的位置,便可直接从单词文本文件中获得该单词的信息。
如图3,在图3中的单词文本文件中,单词的信息即指单词的语法分类和语义属性、上下文区分函数、单词的中文解释以及单词的词组,其中,单词的语法分类是指按照单词词性分为名词、动词、介词、副词等,单词的语义属性是指在单词的语法分类基础上,对单词的性质进行进一步的属性划分,例如,名词按语义属性可进一步划分为专有名词、物质名词、抽象名词、所属格名词等,上下文区分函数用于说明在上下文语境中单词与前面和/或后面的单词组合使用的条件,单词的词组用于说明该单词可以组合得到的所有词组。
在实际运行中,在源文模式匹配成功的前提下,在检查当前成分wi是否满足逗号切分实例中的模式条件或者检查当前成分wi是否满足特征词切分实例中的模式条件的过程中,需要访问藏文字典库来对某单词进行查找时,可按照如下步骤执行:
1)基于单词的首字母,通过首字母索引找到对应的单词索引文件;
2)在单词索引文件中基于二分算法查找该单词;
3)若没找到,则失败返回,否则继续4);
4)读出该单词的字节数,根据该单词的字节数在单词文本文件中读出该单词的信息;
5)结束。
下面举例说明本发明的实现过程。
例1:由转写系统对藏语长句进行转换后得到:
las zhugs bod skyor thad don dngos bsgrubs pa dang bod kyi mtho slob slobthon slob ma nang sar las ka byed par bskyod rgyuvi khrid ston hur thag byas nasbod skyor zhing chen dang grong khyer dang krung dbyang gi rkang vdzin khe lasla mthun sbyor gyis lo ltar skye khungs bod nas yin pavi mtho slob slob thon slobma 100yi las zhugs bkod sgrig bya rgyu bcas byed dgos,
通过本发明方法进行切分的过程中,当指针从w1移至并指向w10(单词dang)时,对应找到了如下的特征词切分实例:
[pa;ba;rgyu]dang<,>#2->
S(L,(1,1),VP),NS(L,(2,2),[gyi;gi;kyi;yi]),NS(L,(2,2),NP(XUL))|
且作为特征词的dang,与源文模式“[pa;ba;rgyu]dang<,>#2”相匹配(“[pa;ba;rgyu]dang<,>#2”表示特征词dang所在源文句子中的源文特征条件应为“pa dang,”或“pa dang”或“ba dang,”或“ba dang”或“rgyu dang,”或“rgyu dang”),且同时满足上述三个上下文语境条件“S(L,(1,1),VP)”、“NS(L,(2,2),[gyi;gi;kyi;yi])”(表示从特征词向左数第2个成分不是gyi、gi、kyi和yi成分)、“NS(L,(2,2),NP(XUL))”,因此,可以按照切分位置“#2”的标示,将dang作为切分点。切分下来的第一个切分子句如下:
las zhugs bod skyor thad don dngos bsgrubs pa dang
然后从成分w11继续对余下成分进行切分,当指针指向w32(单词nas)时,对应找到了如下的特征词切分实例:
nas<,>#2->
S(L,(1,1),[VP;AUX]),NS(R,(1,1),VP);S(L,(2,2),dbu),S(L,(1,1),brnyes);S(L,(3,3),AP),S(L,(2,2),ru),S(L,(1,1),VP);S(L,(2,2),AP(XUM),S(L,(1,1),VP)|
且作为特征词的nas,与源文模式“nas<,>#2”相匹配(“nas<,>#2”表示特征词nas所在源文句子中的源文特征条件应为“nas,”或“nas”),且同时满足上述9个上下文语境条件“S(L,(1,1),[VP;AUX])”、“NS(R,(1,1),VP)”、“S(L,(2,2),dbu)”、“S(L,(1,1),brnyes)”、“S(L,(3,3),AP)”、“S(L,(2,2),ru)”、“S(L,(1,1),VP)”、“S(L,(2,2),AP(XUM)”、“S(L,(1,1),VP)”,因此,可以按照切分位置“#2”的标示,将nas作为切分点。切分下来的第二个切分子句如下:
bod kyi mtho slob slob thon slob ma nang sar las ka byed par bskyod rgyuvikhrid ston hur thag byas nas
然后从成分w33继续对余下成分进行切分,当指针指向w77(逗号“,”)时,对应找到了如下的逗号切分实例:
,#2->
NS(R,(1,4),,),NS(L,(1,4),,),[NS(R,(1,8),[bcas;sogs]);NS(R,(1,8),{[sogs;bcas],la})];S(L,(1,1),VP)|
且作为’,与源文模式“,#2”相匹配,且同时满足上述5个上下文语境条件“NS(R,(1,4),,)”(表示从特征词向右数第1-4个成分不是,成分)、“NS(L,(1,4),,)”、“[NS(R,(1,8),[bcas;sogs])”(表示从特征词向右数第1-8个成分没有bcas和sogs成分)、“NS(R,(1,8),{[sogs;bcas],la})]”(表示从特征词向右数第1-8个成分没有bcas la和sogs la成分)、“S(L,(1,1),VP)”,因此,可以按照切分位置“#2”的标示,将,作为切分点。切分下来的第三个切分子句如下:
bod skyor zhing chen dang grong khyer dang krung dbyang gi rkang vdzin khelas la mthun sbyor gyis lo ltar skye khungs bod nas yin pavi mtho slob slob thonslob ma 100yi las zhugs bkod sgrig bya rgyu bcas byed dgos,
然后从成分w78继续对余下成分进行切分,但此时指针指向的w78为空,且没有剩下任何成分,因此切分结束,上述藏语长句被切分成了三个子句。
例2:由转写系统对藏语长句进行转换后得到:
rnyog vdzing dang vgyur ldog che bavi rgyal spyivi khor yug che mo dangrang rgyal gyi dpal vbyor vkhor rgyug khrod lhag pavi vgal zla dang,gand don,nyen kha bcas kyi mdun du ji ltar byas nas
通过本发明方法进行切分的过程中,当指针从w1移至并指向w22(单词khrod)时,对应找到了如下的特征词切分实例:
khrod<du><,>#2->|
且作为特征词的khrod,与上述特征词切分实例中的源文模式相匹配,且因该特征词切分实例中无模式条件,即认为满足模式条件,因此,可以按照切分位置“#2”的标示,将khrod作为切分点。切分下来的第一个切分子句如下:
rnyog vdzing dang vgyur ldog che bavi rgyal spyivi khor yug che mo dangrang rgyal gyi dpal vbyor vkhor rgyug khrod
然后从成分w23继续对余下成分进行切分,当指针指向w41(成分nas)时,对应找到了如下的特征词切分实例:
nas<,>#2->
S(L,(1,1),[VP;AUX]),NS(R,(1,1),VP);S(L,(2,2),dbu),S(L,(1,1),brnyes);S(L,(3,3),AP),S(L,(2,2),ru),S(L,(1,1),VP);S(L,(2,2),AP(XUM),S(L,(1,1),VP)|
且作为特征词的nas,与上述特征词切分实例中的源文模式相匹配,且满足模式条件中的各上下文语境条件,因此,可以按照切分位置“#2”的标示,将nas作为切分点。切分下来的第二个切分子句如下:
lhag pavi vgal zla dang,gand don,nyen kha bcas kyi mdun du j i ltar byasnas
然后从成分w42继续对余下成分进行切分,但此时指针指向的w42为空,且没有剩下任何成分,因此切分结束,上述藏语长句被切分成了两个子句。
本发明有机地融合了源文模式匹配和模式条件满足等策略,综合利用了藏语句子的多种相关语言特征,包括长度、标点符号、特征词和上下文语境条件,实现了对复杂藏语长句进行快速、有效地切分,切分准确性高,有效地降低了藏语长句的句法分析复杂度,提高了藏汉翻译处理的速度和正确性。
本发明的这种切分方法可扩展用于其它语种长句的切分中。
以上所述是本发明的较佳实施例及其所运用的技术原理,对于本领域的技术人员来说,在不背离本发明的精神和范围的情况下,任何基于本发明技术方案基础上的等效变换、简单替换等显而易见的改变,均属于本发明保护范围之内。

Claims (9)

1.一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤:
1)接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个成分,成分为一单词或一数字或一逗号或一特殊符号;
2)判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取指针指向的成分;
3)判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返回2);
4)判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2);
5)在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回2);
6)在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返回2)。
2.如权利要求1所述的多策略藏语长句切分方法,其特征在于:
逗号切分规则实例库用于存储所述逗号切分实例,逗号切分实例包括一源文模式和一模式条件;
特征词切分规则实例库用于存储所述特征词索引表、所述特征词切分实例表,所述特征词索引表用于存储特征词,所述特征词切分实例表用于存储特征词切分实例,每一特征词对应有至少一特征词切分实例,每一特征词切分实例包括一源文模式和一模式条件。
3.如权利要求2所述的多策略藏语长句切分方法,其特征在于:
所述特征词切分规则实例库还存储有首字母索引,首字母索引用于存储26个拉丁字母,每一拉丁字母与所述特征词索引表中以该拉丁字母作为首字母的特征词相对应。
4.如权利要求2或3所述的多策略藏语长句切分方法,其特征在于:
所述特征词是自身附近成分可能作为切分点的单词;
所述逗号切分实例的所述源文模式是含有逗号和切分位置的成分表达式,用于说明逗号在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置;
所述特征词切分实例的所述源文模式是含有特征词和切分位置的成分表达式,用于说明特征词在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置;
对于所述逗号切分实例和所述特征词切分实例,所述模式条件是含有多个上下文语境条件判断式的集成表达式,用于说明该模式条件对应的源文模式使用时应该满足的各上下文语境条件。
5.如权利要求4所述的多策略藏语长句切分方法,其特征在于:
检查当前成分是否满足逗号切分实例中的模式条件以及检查当前成分是否满足特征词切分实例中的模式条件,是基于藏文字典库进行的;
藏文字典库的单词文本文件中的每个单词有如下内容:
·单词
·单词的语法分类和语义属性
·上下文区分函数
·单词的中文解释
·单词的词组
并且,藏文字典库建立首字母索引和单词索引文件来查找单词文本文件中的单词。
6.如权利要求5所述的多策略藏语长句切分方法,其特征在于:
所述上下文语境条件包括对切分点前和/或后指定长度范围内的成分判断、对切分点前和/或后指定长度范围内的单词所属语法分类和/或语义属性的判断。
7.如权利要求5所述的多策略藏语长句切分方法,其特征在于:
访问所述藏文字典库的步骤为:
1)基于单词的首字母,通过所述首字母索引找到对应的所述单词索引文件;
2)在所述单词索引文件中基于二分算法查找该单词;
3)若没找到,则失败返回,否则继续4);
4)读出该单词的字节数,根据该单词的字节数在所述单词文本文件中读出该单词的信息;
5)结束。
8.如权利要求1所述的多策略藏语长句切分方法,其特征在于:
在送出切分子句时,当判断切分子句的成分个数超过阈值个数时,提醒用户注意是否特征词切分规则实例库不完善,需要收入新的特征词切分实例来完善。
9.如权利要求1所述的多策略藏语长句切分方法,其特征在于:
所述当前长句中的成分个数大于15。
CN201410458322.0A 2014-09-10 2014-09-10 藏汉翻译系统的多策略藏语长句切分方法 Active CN104239294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410458322.0A CN104239294B (zh) 2014-09-10 2014-09-10 藏汉翻译系统的多策略藏语长句切分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410458322.0A CN104239294B (zh) 2014-09-10 2014-09-10 藏汉翻译系统的多策略藏语长句切分方法

Publications (2)

Publication Number Publication Date
CN104239294A true CN104239294A (zh) 2014-12-24
CN104239294B CN104239294B (zh) 2017-06-06

Family

ID=52227390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410458322.0A Active CN104239294B (zh) 2014-09-10 2014-09-10 藏汉翻译系统的多策略藏语长句切分方法

Country Status (1)

Country Link
CN (1) CN104239294B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置
CN105426355A (zh) * 2015-10-28 2016-03-23 北京理工大学 一种音节粒度的藏语句法组块识别方法及装置
CN106599083A (zh) * 2016-11-24 2017-04-26 海南州云藏藏文信息技术有限公司 云藏藏文搜索引擎服务系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001029697A1 (en) * 1999-10-18 2001-04-26 Sony Electronics, Inc. A method and system for reducing lexical ambiguity
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
JP2011118496A (ja) * 2009-12-01 2011-06-16 National Institute Of Information & Communication Technology 統計的機械翻訳のための言語独立な単語セグメント化
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN103440236A (zh) * 2013-09-16 2013-12-11 中央民族大学 藏语句法和语义角色联合标注方法
CN103853701A (zh) * 2012-11-30 2014-06-11 中国科学院声学研究所 一种基于神经网络的自学习语义检测方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001029697A1 (en) * 1999-10-18 2001-04-26 Sony Electronics, Inc. A method and system for reducing lexical ambiguity
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
JP2011118496A (ja) * 2009-12-01 2011-06-16 National Institute Of Information & Communication Technology 統計的機械翻訳のための言語独立な単語セグメント化
CN102135956A (zh) * 2011-05-06 2011-07-27 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN103853701A (zh) * 2012-11-30 2014-06-11 中国科学院声学研究所 一种基于神经网络的自学习语义检测方法及系统
CN103440236A (zh) * 2013-09-16 2013-12-11 中央民族大学 藏语句法和语义角色联合标注方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NIANWEN XUE,YAQIN YANG: "Chinese sentence segmentation as comma classification", 《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS:SHORTPAPERS》 *
陈玉忠 等: "藏文自动分词系统的设计与实现", 《中文信息学报》 *
黄河燕,陈肇雄: "基于多策略分析的复杂长句翻译处理算法", 《中文信息学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068990A (zh) * 2015-07-24 2015-11-18 北京理工大学 一种面向机器翻译的多策略英文长句分割方法及装置
CN105068990B (zh) * 2015-07-24 2017-12-19 北京理工大学 一种面向机器翻译的多策略英文长句分割方法
CN105426355A (zh) * 2015-10-28 2016-03-23 北京理工大学 一种音节粒度的藏语句法组块识别方法及装置
CN106599083A (zh) * 2016-11-24 2017-04-26 海南州云藏藏文信息技术有限公司 云藏藏文搜索引擎服务系统

Also Published As

Publication number Publication date
CN104239294B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
US8745077B2 (en) Searching and matching of data
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
US8881005B2 (en) Methods and systems for large-scale statistical misspelling correction
EP3014481A2 (en) Methods and apparatuses for mining synonymous phrases, and for searching related content
US20120246133A1 (en) Online spelling correction/phrase completion system
US20140222416A1 (en) Searching and matching of data
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
CN1954315A (zh) 用于将汉语拼音翻译成汉字的系统和方法
KR101544690B1 (ko) 단어 분할 장치, 단어 분할 방법 및 단어 분할 프로그램
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
Mandal et al. Clustering-based Bangla spell checker
AU2018102145A4 (en) Method of establishing English geographical name index and querying method and apparatus thereof
CN103034625A (zh) 侦测及校正中文错字的系统及方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Alhanini et al. The enhancement of arabic stemming by using light stemming and dictionary-based stemming
CN104239294A (zh) 藏汉翻译系统的多策略藏语长句切分方法
US20170110114A1 (en) Phoneme-to-Grapheme Mapping Systems and Methods
US8682900B2 (en) System, method and computer program product for documents retrieval
Doush et al. Improving post-processing optical character recognition documents with Arabic language using spelling error detection and correction
Hocking et al. Optical character recognition for South African languages
UzZaman et al. A comprehensive bangla spelling checker
Shah et al. Analysis and comparative study on phonetic matching techniques
Chaware et al. Rule-based phonetic matching approach for Hindi and Marathi
JP2009020567A (ja) 文書検索装置
Ousidhoum et al. Towards the refinement of the Arabic soundex

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant