CN102591857B - 一种平行语料资源获取方法及系统 - Google Patents

一种平行语料资源获取方法及系统 Download PDF

Info

Publication number
CN102591857B
CN102591857B CN201110021725.5A CN201110021725A CN102591857B CN 102591857 B CN102591857 B CN 102591857B CN 201110021725 A CN201110021725 A CN 201110021725A CN 102591857 B CN102591857 B CN 102591857B
Authority
CN
China
Prior art keywords
language
word string
corpus
intertranslation
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110021725.5A
Other languages
English (en)
Other versions
CN102591857A (zh
Inventor
郑仲光
何中军
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201110021725.5A priority Critical patent/CN102591857B/zh
Publication of CN102591857A publication Critical patent/CN102591857A/zh
Application granted granted Critical
Publication of CN102591857B publication Critical patent/CN102591857B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种平行语料资源获取方法及系统。一种平行语料资源获取方法包括:获取第一语料库和第二语料库之间相匹配的中间语言公共字串;根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;其中,所述第一语料库中包括第一语言与中间语言的平行语料;所述第二语料库中包括第二语言与中间语言的平行语料。应用本发明实施例所提供的方案,利用第三方语言来获取两种语言之间的平行语料,以解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统。

Description

一种平行语料资源获取方法及系统
技术领域
本发明一般地涉及计算机应用技术领域,尤其是涉及一种平行语料资源获取方法及系统。
背景技术
机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译。统计机器翻译(Statistical Machine Translation,SMT)是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是:通过对一定数量的平行语料(bilingual corpus也称双语互译语料)进行统计分析,然后通过训练来构建统计翻译模型,进而使用此模型进行翻译。目前,机器翻译已经从早期基于词的翻译逐渐过渡到基于短语的翻译,并正在融合语义信息,以进一步提高翻译的智能性和精确性。
在对统计机器翻译系统进行训练时,需要平行语料(即具有确定互译关系的词或短语)做参考。只有在具有一定数量的平行语料时,才可以从中提取出更多的翻译规则。然而在实际应用中,很多种语言之间并不具有平行语料资源,或者仅具有较少的平行语料资源,因而也难以通过平行语料获得这些语言之间的翻译规则以构建统计机器翻译系统。
发明内容
有鉴于此,本发明实施例提供了一种平行语料资源获取方法及系统。应用本发明实施例所提供的方案,利用第三方语言来获取两种语言之间的平行语料,从而解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则以构建统计机器翻译系统。
本发明实施例提供一种平行语料资源获取方法,包括:
获取第一语料库和第二语料库之间相匹配的中间语言公共字串;
根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;
其中,所述第一语料库中包括第一语言与中间语言的平行语料;
所述第二语料库中包括第二语言与中间语言的平行语料。
根据本发明实施例的另一个方面,提供一种平行语料资源获取系统,包括:
公共字串获取模块,用于获取第一语料库和第二语料库之间相匹配的中间语言公共字串;
互译文本对构成模块,用于根据所述公共字串获取模块获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;
其中,所述第一语料库中包括第一语言与中间语言的平行语料;
所述第二语料库中包括第二语言与中间语言的平行语料。
根据本发明实施例的再一方面,还提供了一种存储有机器可读取的指令代码的程序产品,所述指令代码由机器读取并执行时,可执行上述的平行语料资源获取方法。
根据本发明实施例的另一方面,一种存储介质,其承载有机器可读取的指令代码,所述指令代码由机器读取并执行时,可执行上述的平行语料资源获取方法。
在下面的说明书部分中给出本发明实施例的各种具体实现方式,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。
附图说明
下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在各附图中:
图1是翻译模型中翻译规则的示意图;
图2是根据本发明实施例的平行语料资源获取方法的流程图;
图3是根据本发明实施例的获取中间语言公共字串方法的流程图;
图4(a)-4(b)是根据本发明实施例的公共字串的一种约束条件示意图;
图5是根据本发明实施例的公共字串的另一种约束条件示意图;
图6(a)-6(c)是根据本发明实施例的获取英-日互译语料的示意图;
图7是根据本发明实施例的平行语料资源获取系统的结构示意图;
图8是根据本发明实施例的公共字串获取模块的结构示意图;
图9是作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。
具体实施方式
下面参照附图来说明本发明的实施例。
当两种语言之间不具有充足的平行语料资源时,为了获取这两种语言之间的翻译规则,可以利用中间语言来合并翻译规则,从而间接获得这两种语言之间的翻译规则。例如,当前已知两套翻译模型M1和M2,其中:
M1为第一语言与中间语言的翻译模型
M2为中间语言与第二语言的翻译模型
两套翻译模型M1和M2中均包含一定数量的翻译规则。统计机器翻译的翻译模型主要分为4个部分:第一语言规则、第二语言规则、对齐关系信息和规则概率。图1所示为一条翻译规则实例的示意图。
通过比较语言规则所组成的规则表中的中间语言部分,合并相同的中间语言规则,可以间接得到第一语言和第二语言的翻译规则,然而这种获得翻译规则的方式至少具有以下问题:
1)如果M1中有m1条规则和M2中的m2条规则中间语言部分相同,那么新匹配出来的规则将达到m1×m2条,从而导致规则表膨胀,翻译系统效率降低。
2)由于规则是包含概率的,对于每条新匹配出来的规则,需要重新估算概率,而概率的估算又要基于M1、M2中规则的概率,由于M1、M2中规则的概率就是基于估算得出的,因此,新匹配出来的规则概率的准确性更加难以保证。
3)由于并不知道M1和M2中的规则是从什么样的句子环境中提取出来的,因此单纯的匹配会产生很多的歧义规则,从而影响最终的翻译质量。
可见,通过中间语言而间接获得的翻译规则,在翻译效率和准确性上都不能达到较好的效果。为解决上述问题,本发明实施例提供的技术方案是:利用中间语言来获取第一语言和第二语言之间的平行语料,这样,后续仍然可以基于平行语料来提取第一语言和第二语言之间的翻译规则,以保证翻译规则的质量。
例如,英语-日语之间的平行语料资源稀缺,但是,当前存在大量的英-中平行语料以及中-日平行语料。那么,就可以以中文作为一种第三方的中间语言,根据当前已有的英-中平行语料以及中-日平行语料,来获得更多的英-日平行语料。
图2所示为本发明实施例所提供的一种平行语料资源获取方法的流程图,包括以下步骤:
S101,获取第一语料库和第二语料库之间相匹配的中间语言公共字串。
S102,根据所获取的公共字串,构成第一语言与第二语言的互译文本对。
上述的第一语料库和第二语料库均是当前已有的语料库,在语料库中记录着具有对应互译关系的文本对。其中,在第一语料库中包括第一语言与中间语言的平行语料,第一语料库可以是双语语料库,也可以是包含第一语言与中间语言的多语语料库(即包含三种以上语言互译语料的语料库),本发明实施例对此并不需要进行限定;类似地,在第二语料库中,包括第二语言与中间语言的平行语料,第二语料库可以是双语语料库,也可以是包含第二语言与中间语言的多语语料库。
为描述方便,在本发明实施例中,以S表示第一语料库中的第一语言文本资源,T表示第二语料库中的第二语言文本资源。由于第一语料库和第二语料库是两套独立的语料库,因此,其中的中间语言文本资源一般不会完全一致,为便于区分,下面以P1表示第一语料库中的中间语言文本资源、以P2表示第二语料库中的中间语言文本资源。
应用本发明实施例所提供的方案:首先获取P1和P2之间相匹配的公共字串pi(i=1,2,3,......,N,其中N是自然数,表示所获取的P1和P2之间相匹配的公共字串的个数),在S和T中必然分别存在与pi相对应的互译文本si和ti,进一步就可以认为si和ti之间也构成互译文本对。最终所得到的si和ti之间的互译文本对的集合,就可以用于形成新的第一语言与第二语言的平行语料资源。当然,在可替选实施例中,也可针对互译文本si和ti设置进一步的约束条件以便确定符合要求的互译文本对(在下面将对此进行详细描述)。
在本发明的一个实施例中,利用信息检索(Information Retrieval)的方式,获取第一语料库和第二语料库之间相匹配的中间语言公共字串,参见图3所示,可以包括以下步骤:
S101a,在第一语料库中,选择中间语言句子p’。
S101b,在第二语料库中,检索与p’的相似度大于预设阈值的中间语言句子p”。
S101c,获取p’与p”之间的相匹配的公共字串。
对于P2中的所有句子,可以建立索引I,然后以p’作为一个检索请求,在I中进行检索。针对同一个检索请求,可能有若干条结果符合条件。对于每一条检索结果,会有一个分数来衡量该结果与检索请求的相似度,通过设定阈值来选择相似度较高的检索结果,这样可以进一步减少歧义规则,还可以有效控制规则的膨胀。其中,句子之间的相似度可以按照以下方法进行计算:
首先根据各句子所包含的特征词,将句子表示为特征权重向量(w1,w2,......,wn)(n为自然数),其中wj表示第j个特征词的权重,可以进一步用以下方式表示:
wj=tfj*IDFj
其中,tfj表示第j个词在整个文档(即语料库的中间语言文本资源)中的出现频率,而IDFj则表示包含第j个词的句子在整个文档中的出现频率。
进一步地,根据多维欧氏空间中对向量夹角的定义,可以使用向量夹角公式来表示任意两个句子之间的相似度。例如:句子1的特征权重向量为a,句子2的特征权重向量为b,那么,向量a和向量b的相似度similarity(a,b)可表示为:
Similarity(a,b)=cos(a,b)
           =(向量a与向量b的内积)/(向量a与向量b模的乘积)
当然,以上介绍的仅是计算句子之间相似度的一种具体实施方式,本领域技术人员还可以采用其他的方法计算句子之间的相似度,本发明实施例对此并不需要进行限制。
根据以上方法,结合预先设置的相似度阈值,如果在P2中,存在与p’相似的句子p”(即p’与p”之间的相似度大于预先设置的相似度阈值,其中满足条件的p”可能有多个),就可以进一步获取p’与p”之间的相匹配的公共字串,可以将该公共字串记为p1(对应p”有多个的情况,可将获取的公共字串依次记为p2,p3,......)。然后,在第一语料库中,重新选择其他的中间语言句子作为p’,重复执行上述步骤S101a-S101c,直到遍历第一语料库中的中间语言句子为止,就可以获得P1和P2之间相匹配的公共字串的集合<pi>(i为自然数,),该集合可以用于形成新的第一语言与第二语言的平行语料资源。
在本实施例中,利用信息检索的方式获取中间语言公共字串,这样做的目的是寻找最为相似的p’和p”的句对。相似的句子中会包含相同的词汇或者短语。由于句子包含上下文信息,因此,根据检索结果获得的公共字串能够有效降低产生歧义翻译规则的可能性。
当然,可以理解的是,由于第一语料库和第二语料库之间的关系是对等的,因此,也可以对于P1中的所有句子建立索引,然后以P2中的句子作为请求,在索引中进行检索。
此外,在实际应用中,除了利用信息检索的方式之外,也可以利用其他已知的例如文本对比或文本筛选等方式获取中间语言公共字串,本发明实施例对此并不需要进行限定。
在本发明的另一个实施例中,上述的步骤S101c的一种具体实现方式可以是:获取p’与p”之间符合预设公共字串约束条件的最长匹配公共字串。
其中,公共字串的约束条件可以包括以下条件1)-3)中一种或几种的任意组合:
1)公共字串中包含的总词数不小于预设的第一词数阈值。
统计机器翻译的特点是在翻译过程中能够融合语义信息,约束条件1)可以保证最终得到用来形成平行语料资源的公共字串中具有一定数量的词数,避免所提取的翻译规则中仅包含简单的单词或词组互译。公共字串中包含的词数越多,其语义相对越完整,从中提取出的翻译规则也更有实用性。
2)公共字串包含的停用词数与总词数的比值不超过预设的比值门限。
一般情况下,停用词(Stop Words)大致可分为如下两类:一类是使用十分广泛,甚至是过于频繁的一些单词。比如英文的“i”、“is”、“what”,中文的“我”、“是”等等;另一类是文本中出现频率很高,但实际意义又不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定的作用,如常见的“的”、“在”、“和”等等。
在本发明实施例中,预先设置一个比值门限,如果公共字串包含的停用词数与总词数的比值超过了该门限,则放弃记录该公共字串,从而避免公共字串包含过多的停用词而影响所提取翻译规则的语义。
例如,预设的比值门限为0.5,对于公共字串“a cat on the”,其中“a”、“on”、“the”均为停用词,那么该公共字串包含的停用词数与总词数的比值为3/4,不符合预设的比值门限要求。
其中,停用词可以按照实际情况来设定,例如,可以按照特定语言中通用的停用词表进行定义,也可以取语料库文本资源中词频最高的前几个词作为停用词,本发明实施例对此并不需要进行限定。
3)公共字串在第一语料库或第二语料库的对应译文,仅与所述公共字串中的词具有对齐关系。
这条约束的目的是:保证公共字串对应的译文不能对应到除了该公共字串之外的任何词。
参见图4所示,wi(i=1,2,3)是中间语言字串,ti(i=1,2)是第二语言字串,连线代表词与词之间具有对应的互译关系。那么,根据约束条件3),图4(a)中的字串“w1 w2”符合约束条件;而图4(b)中,译文t1对应到了公共字串w1 w2之外的词w3,因此“w1 w2”不符合约束条件。
此外,可以理解的是,根据一般的信息检索原则,在获取第一语料库和第二语料库之间的最长匹配公共字串时,也可以不要求完全匹配,即允许P1中字串与P2中字串的文本之间相差一定数量的词,一旦有一方超过了这个数量,则停止匹配,但是最终所确定的公共字串p之中并不包括这些有差别的词。例如:
P1中包括字串:半导体激光器具有第一衍射光栅区
P2中包括字串:具有衍射光栅区的光纤
假设规定最大允许相差2个词,两个字串从“具有”开始匹配,P1中包含“第”、“一”,而P2中不包含,但是,此时并没有超过最大允许相差的词的数量,因此可以继续进行匹配,当匹配至“区”时,后面的词已经无法成功匹配,此时已经超过了最大允许相差的词的数量,匹配过程结束。最后的得到的p’与p”分别为:
p’:具有第一衍射光栅区
p”:具有衍射光栅区
除去p’与p”之间有差别的词“第”和“一”,则最终所确定公共字串p为:
具有衍射光栅区
以上提供的几种约束条件,在实际应用时,可以分别单独使用,也可以任意结合使用,从而使得确定的公共字串更有利于后续提取高质量的翻译规则。
获得公共字串p后,由于在S和T中必然分别存在与p相对应的互译文本s和t,进一步就可以认为s和t之间也构成互译文本对。但是在实际应用中,为了令所构成的互译文本对更有利于后续的规则抽取,还可以进一步为互译文本对的确定增加一些约束条件。在本发明的另一个实施例中,上述的步骤S102的一种具体实现方式可以是:
判断公共字串在第一语料库的对应译文s与公共字串在第二语料库的对应译文t是否满足预设的互译文本对约束条件,如果是,则利用s与t构成第一语言与第二语言的互译文本对。
其中,互译文本对约束条件可以包括以下条件1)-3)中的一种或几种的任意组合:
1)在s与t中,与公共字串不具有对齐关系的词数分别不超过预设的第二词数阈值。
如图5所示的日中互译句对中,日语侧的“を”没有对齐关系,这样的词在第一语言侧或第二语言侧均不能超过预置的阈值,如果超过了,则不会利用这样的句对形成平行语料,从而减小翻译规则出现歧义的可能性。
2)s与t中的标点个数相差不超过预设的标点差阈值。
例如,日中句对:
酸化コバルト酸化<->氧化钴、氧化
在中文句子中,包含标点“顿号”,则该句对之间的标点相差为1。如果s与t中的标点个数相差过多,则不会利用这样的句对形成平行语料,从而减小翻译规则出现歧义的可能性。
3)s与t的词数比值或字符数比值属于预设的比值门限区间。
该条件的目的是保证s与t之间的词数或字符数相差不是太多,例如,规定日文词数与中文词数的比值不超过阈值2,那么,该比值门限区间的左右端点应分别设为0.5和2。
仍然以日中句对“酸化コバルト酸化<->氧化钴、氧化”为例,其中,词数比为:
日/中:3/4=0.75(标点按照一个词来计算)
中/日:4/3=1.33
可见,该句对的日中词数比值和中日词数比值均位于属于比值门限区间内,因此该句对是符合约束要求3)的。
当然,在其他情况下,除了利用词数进行比较之外,还可以利用字符数进行比较,或者综合考虑词数和字符数进行比较,本发明实施例对此并不需要进行限定。例如,可以在句对不满足词数约束条件的情况下,进一步判断句对是否满足字符数约束条件,如果是,则仍然可以认为句对符合要求。在此需要提及,“文本对”中的“文本”既可以指句子,也可以指短语。
以上提供的几种约束条件,在实际应用时,可以分别单独使用,也可以任意结合使用,从而使得最终用于形成平行语料的互译文本对更有利于后续提取高质量的翻译规则。
下面结合一个实际的例子,对本发明实施例的获取平行语料资源的方法进行说明。假设需要构建英文-日文的翻译系统,并且当前存在英-中平行语料以及中-日互译语料,那么,可以根据当前已存在的英-中平行语料以及中-日平行语料,获得英-日互译语料。结合前面实施例的描述可知,在该例中,是以中文作为中间语言,英文和日文分别对应第一语言和第二语言。
图6(a)所示为英-中平行语料库中的互译文本对,图6(b)所示为中-日平行语料库中的互译文本对。
首先,通过信息检索可以获得英-中平行语料库中的句子“半导体激光器具有第一衍射光栅区”与中-日平行语料库的句子“在光纤光路上制作衍射光栅的方法和具有衍射光栅区的光纤”具有较高的相似度;进一步可以获得两个句子中相匹配的最长公共字串为“具有衍射光栅区”;最后,根据如图6(a)和图6(b)中虚线框中所示的“具有衍射光栅区”分别所对应的英文译文和日文译文(如图6(a)和图6(b)中虚线框中所示),就可以得到如图6(c)所示英日互译文本对。
可见,应用本发明实施例所提供的平行语料资源获取方法,利用第三方语言来获取两种语言之间的平行语料,从而解决语言之间语料资源稀缺的问题,并且有利于获得较高质量的翻译规则。
以上实施例中提供了获取平行语料资源的方法,相应于上面的方法实施例,本发明实施例还提供一种平行语料资源获取系统,参见图7所示,包括:
公共字串获取模块710,用于获取第一语料库和第二语料库之间相匹配的中间语言公共字串;
互译文本对构成模块720,用于根据公共字串获取模块710获取的公共字串,构成第一语言与第二语言的互译文本对,该互译文本对用于形成第一语言与第二语言的平行语料资源。
上述的第一语料库和第二语料库均是当前已有的语料库,在语料库中记录着具有对应互译关系的文本对。其中,在第一语料库中包括第一语言与中间语言的平行语料,第一语料库可以是双语语料库,也可以是包含第一语言与中间语言的多语语料库(即包含三种以上语言互译语料的语料库),本发明实施例对此并不需要进行限定;类似地,在第二语料库中,包括第二语言与中间语言的平行语料,第二语料库可以是双语语料库,也可以是包含第二语言与中间语言的多语语料库。
为描述方便,在本发明实施例中,以S表示第一语料库中的第一语言文本资源,T表示第二语料库中第二语言文本资源。由于第一语料库和第二语料库是两套独立的语料库,因此,其中的中间语言文本资源一般不会完全一致,为便于区分,下面以P1表示第一语料库中的中间语言文本资源、以P2表示第二语料库中的中间语言文本资源。
应用本发明实施例所提供的方案:首先获取P1和P2之间相匹配的公共字串pi(i=1,2,3,......,N,其中N为自然数,表示所获取的P1和P2之间相匹配的公共字串的个数),在S和T中必然分别存在与pi相对应的互译文本si和ti,进一步就可以认为si和ti之间也构成互译文本对。最终所得到的si和ti之间的互译文本对的集合,就可以用于形成新的第一语言与第二语言的平行语料资源。
在本发明的另一个实施例中,所述公共字串获取模块710可以利用信息检索的方式,获取第一语料库和第二语料库之间相匹配的中间语言公共字串。参见图8所示,所述公共字串获取模块710,具体可以包括:
选择子模块711,用于在第一语料库中,选择中间语言句子p’;
检索子模块712,用于在第二语料库中,检索与p’的相似度大于预设阈值的中间语言句子p”;
获取子模块713,用于获取p’与p”之间的相匹配的公共字串。
对于P2中的所有句子,检索子模块712可以建立索引I,然后以p’作为一个检索请求,在I中进行检索。针对同一个检索请求,可能有若干条结果符合条件。对于每一条检索结果,会有一个分数来衡量该结果与检索请求的相似度,通过设定阈值来选择相似度较高的检索结果,这样可以进一步减少歧义规则,还可以有效控制规则的膨胀。
其中,所述检索子模块712,可以具体配置为,根据以下方法计算句子之间的相似度:
根据各句子所包含的特征词,构成各句子的特征向量;
基于句子的特征向量,利用向量夹角公式,计算两个句子之间的相似度。
当然,以上介绍的仅是检索子模块712的一种具体配置方式,检索子模块712还可以配置为利用其他的方法计算句子之间的相似度,本发明实施例对此并不需要进行限制。
当然,可以理解的是,由于第一语料库和第二语料库之间的关系是对等的,因此检索子模块712也可以对于P1中的所有句子建立索引,然后以P2中的句子作为请求,在索引中进行检索。
在本实施例中,公共字串获取模块710利用信息检索的方式获取中间语言公共字串,这样做的目的是寻找最为相似的p’和p”的句对。相似的句子中会包含相同的词汇或者短语。由于句子包含上下文信息,因此,根据检索结果获得的公共字串能够有效降低产生歧义规则的可能性。
此外,在实际应用中,除了利用信息检索的方式之外,公共字串获取模块710也可以利用文本对比或文本筛选等方式获取中间语言公共字串,本发明实施例对此并不需要进行限定。
在本发明的另一个实施例中,所述获取子模块713,可以具体配置为:
用于获取p’与p”之间符合预设公共字串约束条件的最长匹配公共字串。
其中,公共字串约束条件可以包括以下条件1)-3)中的一种或几种的任意组合:
1)公共字串中包含的总词数不小于预设的第一词数阈值。
2)公共字串包含的停用词数与总词数的比值不超过预设的比值门限。
3)公共字串在第一语料库或第二语料库的对应译文,仅与所述公共字串中的词具有对齐关系。
此外,可以理解的是,根据一般的信息检索原则,获取子模块713在获取第一语料库和第二语料库之间的最长匹配公共字串时,也可以不要求完全匹配,即允许P1中字串与P2中字串的文本之间相差一定数量的词,一旦有一方超过了这个数量,则停止匹配,但是最终所确定的公共字串p之中并不包括这些有差别的词。
以上提供的几种约束条件,在实际应用时,获取子模块713可以分别单独使用,也可以任意结合使用,从而使得确定的公共字串更有利于后续提取高质量的翻译规则。
在本发明的另一个实施例中,所述互译文本对构成模块720,可以具体配置为:
用于判断公共字串在第一语料库的对应译文s与公共字串在第二语料库的对应译文t是否满足预设的互译文本对约束条件,如果是,则利用s与t构成第一语言与第二语言的互译文本对。
其中,互译文本对约束条件可以包括以下条件1)-3)中的一种或几种的任意组合:
1)在s与t中,与公共字串不具有对齐关系的词数分别不超过预设的第二词数阈值。
2)s与t中的标点个数相差不超过预设的标点差阈值。
3)s与t的词数比值或字符数比值属于预设的比值门限区间。
以上提供的几种约束条件,在实际应用时,互译文本对构成模块720可以分别单独使用,也可以任意结合使用,从而使得最终用于形成平行语料的互译文本对更有利于后续提取高质量的翻译规则。
可见,应用本发明实施例所提供的平行语料资源获取系统,利用第三方语言来获取两种语言之间的平行语料,从而解决语言之间语料资源稀缺的问题,有利于获得较高质量的翻译规则。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其各个组成模块或子模块所执行的操作基本相似于方法实施例中的系列操作,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
另外,还应该指出的是,根据本发明上述的各实施例的设备、系统的功能以及方法的系列处理可以通过硬件、软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图9所示的通用个人计算机900安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能和处理等等。
在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中,也根据需要存储当CPU 901执行各种处理等等时所需的数据。
CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。
下述部件连接到输入/输出接口905:输入部分906,包括键盘、鼠标等等;输出部分907,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分908,包括硬盘等等;和通信部分909,包括网络接口卡比如LAN卡、调制解调器等等。通信部分909经由网络比如因特网执行通信处理。
根据需要,驱动器910也连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质9711。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
可见,本发明实施例还公开了一种存储有机器可读取的指令代码的程序产品,这种指令代码由机器读取并执行时,可执行本发明前述实施例的路由选择控制方法。同时本发明实施例还公开了一种存储介质,其承载有机器可读取的指令代码,所述指令代码由机器读取并执行时,可执行本发明前述实施例的路由选择控制方法。
关于包括以上实施例的实施方式,还公开了下述附记:
附记1.一种平行语料资源获取方法,包括:
获取第一语料库和第二语料库之间相匹配的中间语言公共字串;
根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;
其中,所述第一语料库中包括第一语言与中间语言的平行语料;
所述第二语料库中包括第二语言与中间语言的平行语料。
附记2.根据附记1所述的方法,所述获取第一语料库和第二语料库之间相匹配的中间语言公共字串,包括:
在第一语料库中,选择中间语言句子p’;
在第二语料库中,检索与p’的相似度大于预设阈值的中间语言句子p”;
获取p’与p”之间的相匹配的公共字串。
附记3.根据附记2所述的方法,句子之间相似度的计算方法包括:
根据各句子所包含的特征词,构成各句子的特征向量;
基于句子的特征向量,利用向量夹角公式,计算两个句子之间的相似度。
附记4.根据附记2所述的方法,所述获取p’与p”之间相匹配的公共字串,包括:
获取p’与p”之间符合预设公共字串约束条件的最长匹配公共字串,所述公共字串约束条件包括:
所述公共字串包含的总词数不小于预设的第一词数阈值;和/或
所述公共字串包含的停用词数与总词数的比值不超过预设的比值门限;和/或
所述公共字串在第一语料库或第二语料库的对应译文,仅与所述公共字串中的词具有对齐关系。
附记5.根据附记1所述的方法,所述根据所获取的公共字串,构成第一语言与第二语言的互译文本对,包括:
判断公共字串在第一语料库的对应译文s与公共字串在第二语料库的对应译文t是否满足预设的互译文本对约束条件,如果是,则利用s与t构成第一语言与第二语言的互译文本对;
所述互译文本对约束条件包括:
在s与t中,与所述公共字串不具有对齐关系的词数分别不超过预设的第二词数阈值;和/或
s与t中的标点个数相差不超过预设的标点差阈值;和/或
s与t的词数比值或字符数比值属于预设的比值门限区间。
附记6.一种平行语料资源获取系统,包括:
公共字串获取模块,用于获取第一语料库和第二语料库之间相匹配的中间语言公共字串;
互译文本对构成模块,用于根据所述公共字串获取模块获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;
其中,所述第一语料库中包括第一语言与中间语言的平行语料;
所述第二语料库中包括第二语言与中间语言的平行语料。
附记7.根据附记6所述的系统,公共字串获取模块,包括:
选择子模块,用于在第一语料库中,选择中间语言句子p’;
检索子模块,用于在第二语料库中,检索与p’的相似度大于预设阈值的中间语言句子p”;
获取子模块,用于获取p’与p”之间的相匹配的公共字串。
附记8.根据附记7所述的系统,所述检索子模块,具体配置为,根据以下方法计算句子之间的相似度:
根据各句子所包含的特征词,构成各句子的特征向量;
基于句子的特征向量,利用向量夹角公式,计算两个句子之间的相似度。
附记9.根据附记7所述的系统,所述获取子模块,具体配置为:
用于获取p’与p”之间符合预设公共字串约束条件的最长匹配公共字串,所述公共字串约束条件包括:
所述公共字串包含的总词数不小于预设的第一词数阈值;和/或
所述公共字串包含的停用词数与总词数的比值不超过预设的比值门限;和/或
所述公共字串在第一语料库或第二语料库的对应译文,仅与所述公共字串中的词具有对齐关系。
附记10.根据附记6所述的系统,所述互译文本对构成模块,具体配置为:
用于判断公共字串在第一语料库的对应译文s与公共字串在第二语料库的对应译文t是否满足预设的互译文本对约束条件,如果是,则利用s与t构成第一语言与第二语言的互译文本对;
所述互译文本对约束条件包括:
在s与t中,与所述公共字串不具有对齐关系的词数分别不超过预设的第二词数阈值;和/或
s与t中的标点个数相差不超过预设的标点差阈值;
和/或
s与t的词数比值或字符数比值属于预设的比值门限区间。
附记11.一种存储有机器可读取的指令代码的程序产品,所述指令代码由机器读取并执行时,可执行如附记1-5任一项所述的方法。
附记12.一种存储介质,其承载有机器可读取的指令代码,所述指令代码由机器读取并执行时,可执行如附记1-5任一项所述的方法。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种平行语料资源获取方法,包括:
获取第一语料库和第二语料库之间相匹配的中间语言公共字串,包括:
在第一语料库中,选择中间语言句子p’;
在第二语料库中,检索与p’的相似度大于预设阈值的中间语言句子p”;
获取p’与p”之间的相匹配的公共字串,包括:获取p’与p”之间符合预设公共字串约束条件的最长匹配公共字串,所述公共字串约束条件包括:
所述公共字串在第一语料库或第二语料库的对应译文,仅与所述公共字串中的词具有对齐关系;
根据所获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;
其中,所述第一语料库中包括第一语言与中间语言的平行语料;
所述第二语料库中包括第二语言与中间语言的平行语料。
2.根据权利要求1所述的方法,句子之间相似度的计算方法包括:
根据各句子所包含的特征词,构成各句子的特征向量;
基于句子的特征向量,利用向量夹角公式,计算两个句子之间的相似度。
3.根据权利要求1所述的方法,所述公共字串约束条件还包括:
所述公共字串包含的总词数不小于预设的第一词数阈值;和/或
所述公共字串包含的停用词数与总词数的比值不超过预设的比值门限。
4.根据权利要求1所述的方法,所述根据所获取的公共字串,构成第一语言与第二语言的互译文本对,包括:
判断公共字串在第一语料库的对应译文s与公共字串在第二语料库的对应译文t是否满足预设的互译文本对约束条件,如果是,则利用s与t构成第一语言与第二语言的互译文本对;
所述互译文本对约束条件包括:
在s与t中,与所述公共字串不具有对齐关系的词数分别不超过预设的第二词数阈值;和/或
s与t中的标点个数相差不超过预设的标点差阈值;和/或
s与t的词数比值或字符数比值属于预设的比值门限区间。
5.一种平行语料资源获取系统,包括:
公共字串获取模块,用于获取第一语料库和第二语料库之间相匹配的中间语言公共字串,包括:
选择子模块,用于在第一语料库中,选择中间语言句子p’;
检索子模块,用于在第二语料库中,检索与p’的相似度大于预设阈值的中间语言句子p”;
获取子模块,用于获取p’与p”之间的相匹配的公共字串,具体配置为:用于获取p’与p”之间符合预设公共字串约束条件的最长匹配公共字串,所述公共字串约束条件包括:
所述公共字串在第一语料库或第二语料库的对应译文,仅与所述公共字串中的词具有对齐关系;
互译文本对构成模块,用于根据所述公共字串获取模块获取的公共字串,构成第一语言与第二语言的互译文本对,所述互译文本对用于形成第一语言与第二语言的平行语料资源;
其中,所述第一语料库中包括第一语言与中间语言的平行语料;
所述第二语料库中包括第二语言与中间语言的平行语料。
6.根据权利要求5所述的系统,所述检索子模块,具体配置为,根据以下方法计算句子之间的相似度:
根据各句子所包含的特征词,构成各句子的特征向量;
基于句子的特征向量,利用向量夹角公式,计算两个句子之间的相似度。
7.根据权利要求5所述的系统,所述公共字串约束条件还包括:
所述公共字串包含的总词数不小于预设的第一词数阈值;和/或
所述公共字串包含的停用词数与总词数的比值不超过预设的比值门限。
8.根据权利要求5所述的系统,所述互译文本对构成模块,具体配置为:
用于判断公共字串在第一语料库的对应译文s与公共字串在第二语料库的对应译文t是否满足预设的互译文本对约束条件,如果是,则利用s与t构成第一语言与第二语言的互译文本对;
所述互译文本对约束条件包括:
在s与t中,与所述公共字串不具有对齐关系的词数分别不超过预设的第二词数阈值;和/或
s与t中的标点个数相差不超过预设的标点差阈值;
和/或
s与t的词数比值或字符数比值属于预设的比值门限区间。
CN201110021725.5A 2011-01-10 2011-01-10 一种平行语料资源获取方法及系统 Expired - Fee Related CN102591857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110021725.5A CN102591857B (zh) 2011-01-10 2011-01-10 一种平行语料资源获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110021725.5A CN102591857B (zh) 2011-01-10 2011-01-10 一种平行语料资源获取方法及系统

Publications (2)

Publication Number Publication Date
CN102591857A CN102591857A (zh) 2012-07-18
CN102591857B true CN102591857B (zh) 2015-06-24

Family

ID=46480526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110021725.5A Expired - Fee Related CN102591857B (zh) 2011-01-10 2011-01-10 一种平行语料资源获取方法及系统

Country Status (1)

Country Link
CN (1) CN102591857B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678285A (zh) * 2012-08-31 2014-03-26 富士通株式会社 机器翻译方法和机器翻译系统
CN103914447B (zh) * 2013-01-09 2017-04-19 富士通株式会社 信息处理设备和信息处理方法
CN104123274B (zh) * 2013-04-26 2018-06-12 富士通株式会社 评价中间语的词语的方法和装置以及机器翻译方法和设备
CN103577399B (zh) * 2013-11-05 2018-01-23 北京百度网讯科技有限公司 双语语料库的数据扩充方法和装置
CN103605644B (zh) * 2013-12-02 2017-02-01 哈尔滨工业大学 一种基于相似度匹配的枢轴语言翻译方法和装置
TWI613554B (zh) * 2017-03-24 2018-02-01 Zhuang Shi Cheng 翻譯輔助系統
CN110866407B (zh) * 2018-08-17 2024-03-01 阿里巴巴集团控股有限公司 确定互译文本及文本间相似度分析方法、装置及设备
CN110046332B (zh) * 2019-04-04 2024-01-23 远光软件股份有限公司 一种相似文本数据集生成方法及装置
CN110516230B (zh) * 2019-07-12 2020-09-08 昆明理工大学 基于枢轴语言的汉-缅双语平行句对抽取方法及装置
CN110489624B (zh) * 2019-07-12 2022-07-19 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法
CN112395856B (zh) * 2019-07-31 2022-09-13 阿里巴巴集团控股有限公司 文本匹配方法、装置、计算机系统及可读存储介质
CN111191473B (zh) * 2019-12-31 2024-05-03 深圳市优必选科技股份有限公司 一种翻译文本文件获取方法及装置
CN114692642A (zh) * 2020-12-31 2022-07-01 北京猎户星空科技有限公司 一种文本语料生成方法、装置、设备及介质
CN113627150B (zh) * 2021-07-01 2022-12-20 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置
CN114282554A (zh) * 2021-12-27 2022-04-05 成都优译信息技术股份有限公司 一种多语种语料对齐方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003014967A2 (fr) * 2001-08-10 2003-02-20 Communications Research Laboratory, Independent Administrative Institution Algorithme de generation de texte dans une langue tierce par entree de textes multilingues, dispositif et programme correspondants
CN101030196B (zh) * 2006-02-28 2010-05-12 株式会社东芝 训练双语词对齐模型的方法和装置、双语词对齐方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种综合多特征的句子相似度计算方法;吴全娥等;《计算机系统应用》;20101115;第19卷(第11期);第110-113页 *
新的基于中间语义的多语言信息检索模型;邹小芳等;《小型微型计算机系统》;20100430;第31卷(第4期);第697-699页 *

Also Published As

Publication number Publication date
CN102591857A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
CN102591857B (zh) 一种平行语料资源获取方法及系统
Hearne et al. Statistical machine translation: a guide for linguists and translators
US6782384B2 (en) Method of and system for splitting and/or merging content to facilitate content processing
KR20210116379A (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
US20100161655A1 (en) System for string matching based on segmentation method and method thereof
US20150112664A1 (en) System and method for generating a tractable semantic network for a concept
JP6335898B2 (ja) 製品認識に基づく情報分類
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
US11269942B2 (en) Automatic keyphrase extraction from text using the cross-entropy method
CN104281716B (zh) 平行语料的对齐方法及装置
CN109885641A (zh) 一种数据库中文全文检索的方法及系统
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
Pakzad et al. An improved joint model: POS tagging and dependency parsing
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
CN102890723A (zh) 一种例句检索的方法及系统
CN103914447A (zh) 信息处理设备和信息处理方法
Sofianopoulos et al. Implementing a language-independent MT methodology
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
Li et al. Parallel Aligned Treebanks at LDC: New Challenges Interfacing Existing Infrastructures.
JP2016167123A (ja) 共通操作列抽出プログラム、共通操作列抽出方法、及び共通操作列抽出装置
Khoufi et al. Chunking Arabic texts using conditional random fields
KR20140079545A (ko) 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법
Wu et al. Term translation extraction from historical classics using modern chinese explanation
US9311302B2 (en) Method, system and medium for character conversion between different regional versions of a language especially between simplified chinese and traditional chinese
KR20140049148A (ko) 형태소 분할에 기반한 품사 태깅 방법 및 그 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150624

Termination date: 20190110

CF01 Termination of patent right due to non-payment of annual fee