CN102855263A - 一种对双语语料库进行句子对齐的方法及装置 - Google Patents

一种对双语语料库进行句子对齐的方法及装置 Download PDF

Info

Publication number
CN102855263A
CN102855263A CN2011101921715A CN201110192171A CN102855263A CN 102855263 A CN102855263 A CN 102855263A CN 2011101921715 A CN2011101921715 A CN 2011101921715A CN 201110192171 A CN201110192171 A CN 201110192171A CN 102855263 A CN102855263 A CN 102855263A
Authority
CN
China
Prior art keywords
translation
source
sentence
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101921715A
Other languages
English (en)
Inventor
郑仲光
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN2011101921715A priority Critical patent/CN102855263A/zh
Publication of CN102855263A publication Critical patent/CN102855263A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种对双语语料库进行句子对齐的方法及装置,其中双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表;根据候选翻译对列表中的每个翻译对的翻译概率生成双语词典;以双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考种子翻译对的上下文内容对双语词典进行扩展;将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;依据相似度对源句子和目标句子进行对齐。通过本发明实施例,能够简化句子对齐时的流程,进而提高句子对齐的效率。

Description

一种对双语语料库进行句子对齐的方法及装置
技术领域
本发明一般地涉及数据处理技术领域,尤其是一种对双语语料库进行句子对齐的方法及装置。 
背景技术
目前,统计的方法越来越多的应用在自然语言处理领域中,因此语料的作用也越来越重要。其中双语平行语料(简称双语语料)指的是由两种语言(分别称为源语言F和目标语言E)构成的语料,并且该语料以句子为单位互为译文。在很多自然语言处理任务中,双语语料是重要的知识源,例如:统计机器翻译、跨语言检索等领域。因此,双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。 
很多情况下,大量的双语语料容易获得,例如从双语网站或多个语言版本的文献资料等,但是得到的文本通常并不是以句子为单位对齐的,例如有些是以段落为单位对齐的,有些甚至是按照整篇文本来对齐的。这种情况下,就需要将这些不是以句子为单位对齐的语料(也可以称为原始语料)整理成需要的句对齐格式。 
现有技术中对双语语料库进行句子对齐的方法主要有以下几种:基于句子长度分布的方法;该方法考虑源语言跟目标语言的句子长度信息,根据句子长度的分布来寻找对齐关系,但是这种方法的鲁棒性不好,只能用于特定的一些语言之间;基于词典的方法:但是词典作为不可或缺的资源很多情况下不容易获得,或者已有的词典与双语语料并不是同一领域的,因此基于词典的方法局限性比较大,且不容易扩展。基于统计的方法可以将基于句子长度分布的方法和基于词典的方法相结合,但是基于统计的方法复杂度高,在处理大规模数据时非常耗时,因此也无法满足实际需求。 
总之,现有技术中对双语语料进行句子对齐时,不仅在实现时复杂度高且非常耗时,而且也会因此而导致现有技术的效率非常低下。 
发明内容
有鉴于此,本发明实施例提供了一种对双语语料库进行句子对齐的方法及装置,能够简化句子对齐时的流程,进而可以提高句子对齐的效率。 
根据本发明实施例的一个方面,提供一种对双语语料库进行句子对齐的方法,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;基于扩展后的双语词典,将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;以及依据所述相似度对源句子和目标句子进行对齐。 
根据本发明实施例的另一个方面,提供一种对双语语料库进行句子对齐的装置,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,包括:候选翻译对列表生成模块,用于针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;双语词典生成模块,用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;双语词典扩展模块,用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;目标语言翻译模块,用于基于扩展后的双语词典,将源块中的源句子翻译成目标语言;相似度计算模块,用于计算翻译结果与目标块中的目标句子之间的相似度;以及对齐模块,用于依据所述相似度对源句子和目标句子进行对齐。 
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介 质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述一种对双语语料库进行句子对齐的方法。 
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述一种对双语语料库进行句子对齐的方法。 
根据本发明实施例的上述一种方法,能够通过双语词典的获取以及扩充,快速的从双语语料中确定出双语词典,进而能够依据双语词典来计算源句子与目标句子之间的相似度,这样就能够在对齐过程中依据相似度来进行,将相似度较高或者符合一定条件的源句子和目标句子进行对齐,这样既简化了句子对齐的流程,提高了对齐效率,还能够因为双语词典的选取以及句子相似度的计算而提高对齐的准确率。 
在下面的说明书部分中给出本发明实施例的其他方面,其中,详细说明用于充分地公开本发明实施例的优选实施例,而不对其施加限定。 
附图说明
下面结合具体的实施例,并参照附图,对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。 
图1是示出作为本发明实施例提供的第一种方法的流程图; 
图2是示出本发明实施例的第一种方法中步骤S101的一种流程图; 
图3是示出本发明实施例的第一种方法中步骤S101的另一种流程图; 
图4是示出本发明实施例的第一种方法中步骤S102的流程图; 
图5是示出本发明实施例的第一种方法中步骤S105的流程图; 
图6是示出本发明实施例的第一种方法中步骤S106的流程图; 
图7是示出作为本发明实施例提供的另一种方法的流程图; 
图8是示出作为本发明实施例提供的第一种装置的示意图; 
图9是示出本发明实施例的第一种装置中候选翻译对列表生成模块 801的一种示意图; 
图10是示出本发明实施例的第一种装置中候选翻译对列表生成模块801的另一种示意图; 
图11是示出本发明实施例的第一种装置中双语词典生成模块802的示意图; 
图12是示出本发明实施例的第一种装置中相似度计算模块805的示意图; 
图13是示出本发明实施例的第一种装置中对齐模块806的示意图; 
图14是示出作为本发明实施例提供的另一种装置的示意图; 
图15是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。 
具体实施方式
下面参照附图来说明本发明的实施例。 
参见图1,本发明实施例提供的第一种对双语语料库进行句子对齐的方法,可以包括: 
S101:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对。 
在实际应用中,原始语料往往是以段落或者篇章为最小单元对齐的,在本发明中这些最小的对齐单元称为“块”。例如,在一个块B中,如果一个词a在源语言F中是关键词,那么它的译文b在目标语言E中很有可能也是关键词;因此可以先找到源语言F和目标语言E中的关键词生成候选翻译对列表。 
具体的,参考图2所示,所述步骤S101在实际应用中可以包括: 
S201:分别计算源块和目标块中各个词的词频/反文档频率值。 
本发明实施例中采用词汇的词频/反文档频率(TF/IDF,term frequency-inverse document frequency)值来衡量源语言或者目标语言中的一个词是否为关键词。其中,词w的TF和IDF值分别表示为公 式(1)和(2): 
TF w = WN w WN B - - - ( 1 )
IDF w = DN total DN w - - - ( 2 )
其中WNw表示w在块B中的词频,WNB表示一个块B包含的词汇总数量;DNtotal表示原始语料中所有块的数量,DNw表示在所有块中,包含w的块的数量。则词w的TF/IDF值的计算方法如公式(3)所示: 
TF/IDFw=log(TFw×IDFw)(3) 
S202:分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词,以形成所述源关键词列表和所述目标关键词列表。 
在实际应用中,计算出各个词的TF/IDF值之后,需要根据TF/IDF值的大小从源块和目标块中选取可能是关键词的词分别作为源关键词和目标关键词,并形成所述源关键词列表和所述目标关键词列表。 
S203:分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序。 
在计算块B中源语言F和目标语言E的每个词swi和twj的TF/IDF值之后,可以得到两个按照TF/IDF值排序的词汇列表(如表1所示),在列表中处于相似位置的词汇很可能互为译文。因此选择在此列表中分布相近的词汇作为候选翻译对。例如对于源关键词swi,可以选择目标关键词twi及其前后N个词作为候选译文(其中,N为大于或等于1的自然数),其中swi和twj的TF/IDF值也需要大于预先设定的阈值T。 
表1 
Figure BSA00000536037500061
S204:依次针对所述源关键词列表中的每一个源关键词,以对应的目标关键词为中心选取预定数目的候选目标关键词,作为该源关键词的候选翻译。 
S205:针对目标关键词列表中的每一个目标关键词,以对应的源关键词为中心选取预定数目的候选源关键词,作为该目标关键词的候选翻译。 
在表2给出一个例子,对于sw2可以选择tw2和N=1范围内的源关键词作为其候选译文,即是表2中下划线所示出的tw1、tw2和tw3。 
表2 
Figure BSA00000536037500062
需要说明的是,在实际应用中,生成候选关键词列表还可以采用其他方式来获得。如下将介绍所述步骤101的另一种实现方式。 
参考图3所示,所述步骤101具体可以包括: 
S301:针对每一个源句子,利用句子长度信息查找所述源句子对应的目标句子。 
在一个块里面,如果一个源语言句子和一个目标语言句子互为译文,那么在这个句对里面频率相同的词汇可能互为译文。因此,本步骤首先利用句子长度信息找到源语言句子Si对应目标语句子Tj。 
S302:如果源句子与目标句子的比值在预定范围内,且源句子与目标句子的长度差符合预设条件,则确定所述目标句子与源句子互为译文。 
如果Si与Tj长度的比值在一个设定的范围ε内,并且|i-j|小于一个预设值d,那么确定Si与Tj互为译文。需要说明的是,由于ε与d限制严格,因此只有一部分源语言句子会找到对应的目标语言句子,而且对应关系不够准确,所以这种方法不能直接用来做句子对齐。 
S303:针对属于所述源句子的源词和属于所述目标句子的目标词,获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对。 
S304:判断所述源词和目标词对中的源词和目标词是否都不在停用词表中,如果是,则进入步骤S305。 
例如,在Si与Tj中,如果词swm∈Si和twn∈Tj在句子中的出现次数相同并且都不在停用词表内,则认为swm与twn互译。 
S305:依据所述源词和目标词对生成候选翻译对列表。 
根据互译的源关键词swm与目标关键词twn生成最终的候选翻译对列表,以便于后续可以根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典。 
S102:根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率。 
在步骤S101中生成的候选翻译对列表中的每个翻译对中,每个翻译对都是互为译文的源关键词和目标关键词,本步骤需要计算每一个 翻译对的翻译概率。下面详细介绍翻译概率的计算过程。 
考图4所示,所述步骤S102具体可以包括: 
S401:计算候选翻译对列表中的每个翻译对的翻译概率。 
本步骤即是通过公式(4)计算swi与twj的互译概率Pt(swi,twj): 
Pt(swi,twj)=log(P(swi|twj)×P(twj|swi))(4) 
其中,P(a|b)通过公式(5)计算: 
P ( a | b ) = translation _ num ( a ) word _ frequency ( b ) - - - ( 5 )
其中,translation_num(a)为a在b的候选翻译集合中的出现次数;word_frequency(b)是b的词频;swi为第i个源关键词,twi为第j个目标关键词。 
S402:选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。 
在计算得到各个翻译对的翻译概率之后,因为翻译概率低的翻译对说明源关键词和目标关键词之间的并不能很好的对应,所以预先设定一个阈值来选取出翻译概率大于预设阈值的翻译对生成所述双语词典,其中,双语词典中的每个条目包括源和目标关键词对及其翻译概率。 
S103:以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展。 
当双语词典确定下来之后,可以通过该双语词典中的关键词在原始文本中的上下文来扩展所述双语词典。例如,<处理,processing>是一个种子翻译对,那么在原文中则考察“处理”和“processing”的上下文,结果发现“单元”和“unit”经常同时出现在其后面,那么<单元,unit>便可作为新的种子翻译对加入所述原始的双语词典。其中, 需要说明的是,这个过程一直进行直到不再有新的种子产生,即是迭代执行对所述双语词典进行扩展的处理直至不能再生成新的词典条目为止。 
扩充结束后便可以得到用于翻译的最终的双语词典。表3给出部分的双语词典抽取结果,其中,F表示源语言,T表示译文,译文T后的分数表示翻译概率。 
表3 
Figure BSA00000536037500091
S104:基于扩展后的双语词典,将源块中的源句子翻译成目标语言。 
其中所述步骤104具体可以为:通过查询所述扩充后的双语词典得到源句子中各个源关键词对应的候选翻译集。 
假设句子Si=[sw1,sw2,…,swn],Tj=[tw1,tw2,…,twm],其中swh和twk表示句子中的一个词。对于每个swh,在词典中查找其所有译文,则Si可以转换成目标语言,即为:Si=[sw1{tw1,1,…,tw1,n},sw2{tw2,1,…,tw2,m},…,swn{twn,1,…,twn,h}],其中twh,k,表示swh对应的一个译文。 
S105:计算翻译结果与目标块中的目标句子之间的相似度。 
本步骤即是计算步骤104中的翻译结果Si=[sw1{tw1,1,…,tw1,n},sw2{tw2,1,…,tw2,m},…,swn{twn,1,…,twn,h}]与目标句子之间的相似度。 
参考图5所示,在实际应用中所述步骤S105具体可以包括: 
S501:按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值。 
其中计算源句子与目标句子的句翻译分值进一步包括:利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。 
具体的,所述句翻译分值可以采用公式(6)计算: 
S trans ( S , T ) = &Sigma; i = 1 n log ( &lambda; i &times; min ( sf swi , tf twj ) 2 sf swi &times; tf twj ) - - - ( 6 )
其中,所述sfswi是源关键词swi在源句子S中的出现次数,tftwj是目标关键词twj在目标句子T中的出现次数;λi是源关键词swi和目标关键词twj的翻译概率。 
S502:依据所述句翻译分值计算源句子与目标句子的相似度。 
再根据上述计算出的句翻译分值来计算源句子与目标句子之间的相似度。需要说明的是,在本实施例中相似度的计算可以只依据句翻译分值进行,但是在不同的应用中,也可以引入其他参数,例如锚点词分值或者句子长度惩罚值等来计算源句子与目标句子的相似度。 
S106:依据所述相似度对源句子和目标句子进行对齐。 
再依据源句子与目标句子之间计算出的相似度来进行对齐。具体的,参考图6所示,所述步骤S106在实际应用中具体可以包括: 
S601:依据所述相似度,对源句子和目标句子进行1∶1类型的对齐。 
在实际应用中,源语言与目标语言1∶1(即是1句对应1句)的情况占了大多数,因此,本实施例中首先寻找1∶1的对齐类型,如果源句子与目标句子之间的相似度Sim(Si,Tj)大于某个预先设定的阈值,则认为Si和Tj是1∶1对齐的。其中,阈值可以根据实际场景或者需求适应 性调整。 
S602:依据所述相似度,对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐,所述n大于或等于2且小于或等于4。 
然后再在剩下的未对齐的关系中寻找以下几种对齐关系:1∶2,1∶3,1∶4,2∶1,3∶1,或者,4∶1。当然,本领域技术人员也可以根据实际需求进行1∶5或者5∶1等类型的对齐,本实施例中就不再一一列举。 
通过上述第一种对双语语料库进行句子对齐的方法,首先通过双语词典的获取以及扩充,可以快速的从双语语料中确定出双语词典,进而能够依据双语词典来计算源句子与目标句子之间的相似度,这样就能够在对齐过程中依据相似度来进行,将相似度较高或者符合一定条件的源句子和目标句子进行对齐,这样既简化了句子对齐的流程,提高了对齐效率,还能够因为双语词典的选取以及句子相似度的计算而提高对齐的准确率。 
参见图7,本发明实施例提供了另一种对双语语料库进行句子对齐的方法,可以包括: 
S701:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对。 
步骤S701因为在前述第一种方法中已经详细介绍,在此不再赘述。 
S702:对所述候选翻译对列表中的翻译对进行过滤。 
本实施例与上一个实施例不同的是,本实施例还包括对候选翻译对列表进行过滤的步骤。其中,步骤S702在实际应用中具体执行时,可以为:对于源关键字sw的候选翻译集合{tw1,tw2,…,twn}中的每个候选翻译twi,只有sw也出现在所述twi的候选翻译集合中,且twi不在停用词列表中,才保留twi;以及,对于目标关键字tw的候选翻译集合{sw1,sw2,…,swn}中的每个候选翻译swi,只有tw也出现在所述swi的候选翻译集合中,且swi都不在停用词列表中,才保留swi。 
可以看出本步骤需要从“源语言→目标语言”和“目标语言→源语言”两个方向上查找候选译文,因此,一个源语言词汇swi会有多个候选译文[tw1,tw2,…,twm],同样一个目标语言词汇twj也会有多个候选译文[sw1, sw2,…,swn]。如果swi和twj互为译文,并且swi和twj都不在停用词表内,则再进入双语词典的生成步骤。 
S703:根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率。 
S704:以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展。 
S705:通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集。 
其中,候选翻译集中包括各个源关键词对应的候选翻译。 
S706:按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值。 
在本实施例中,对于一个块B,在计算源语言句子Si与目标语言句子Tj的相似度Sim(Si,Tj)时,使用到的参数包括三个:锚点相似度(Sanchor)、翻译相似度(Strans)和长度惩罚(Slen_penalty)。在本步骤中首先计算源句子与目标句子的句翻译分值,具体计算过程在第一种方法中已经详细介绍,在此不再赘述。 
S707:计算锚点词分值。 
其中,计算锚点词分值进一步包括:利用锚点词在源句子中的出现次数、锚点词在目标句子中的出现次数以及锚点词在源句子和目标句子中同时出现的次数计算所述锚点词分值。 
所述锚点词在本发明实施例中定义为在源句子Si与目标句子Tj中都出现的词。例如,Si=“如图12所示”,Tj=“As shown in Figure 12”,则“12”为一个锚点词。具体的,锚点词分值采用公式(7)计算: 
S anchor ( S , T ) = &Sigma; i = 1 n log ( &mu; &times; cooc wi 2 sf wi &times; tf wi ) - - - ( 7 )
其中,coocwi是锚点词wi在源句子和目标句子中同时出现的次数; sfwi是锚点词wi在源句子中的出现次数;tfwi是锚点词wi在目标句子中的出现次数,μ是预定权重。 
S708:根据源句子和目标句子的长度,计算句子长度惩罚值。 
接着根据源句子计算和目标句子的长度计算句子长度惩罚值,可以采用公式(8): 
S len _ penalty ( S , T ) = log ( min ( length ( S ) , length ( T ) ) max ( length ( S ) , length ( T ) ) &times; threshold len ) - - - ( 8 )
其中,length(S)表示句子S的长度,thresholdlen是预定阈值。 
S709:依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值,计算源句子与目标句子的相似度。 
当句翻译分值、所述锚点词分值和所述句子长度惩罚值都计算得到之后,再采用公式(9)计算源句子与目标句子的相似度: 
Sim(Si,Tj)=Sanchor(Si,Tj)+Strans(Si,Tj)+Slen_penalty(Si,Tj)(9) 
S710:依据所述相似度对源句子和目标句子进行对齐。 
需要说明的是,本发明实施例中涉及到的预定阈值,均可以根据经验值获得或根据实际需要进行设置,因此本发明不进行限定。 
总之,采用本发明实施例的另一种对双语语料库进行句子对齐的方法,还可以对候选翻译对列表中的候选翻译对进行过滤,进一步的还采用句翻译分值、锚点词分值和句子长度惩罚值三个参数来计算源句子与目标句子之间的相似度,这样可以保证在提高句子对齐的效率的同时,还能够提升句子对齐的精确度。 
与本发明实施例提供的第一种对双语语料库进行句子对齐的方法相对应,本发明实施例还提供了一种对双语语料库进行句子对齐的装置,参见图8,该装置可以包括: 
候选翻译对列表生成模块801,用于针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括 源和目标关键词对的翻译对。 
其中,参考图9所示,所述候选翻译对列表生成模块801的一种实现方式可以包括: 
词频/反文档频率值计算子模块901,用于分别计算源块和目标块中各个词的词频/反文档频率值。 
第一选取子模块902,用于分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词,以形成所述源关键词列表和所述目标关键词列表。 
排序子模块903,用于分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序 
第二选取子模块904,用于依次针对所述源关键词列表中的每一个源关键词,以对应的目标关键词为中心选取预定数目的候选目标关键词,作为该源关键词的候选翻译。 
第三选取子模块905,用于针对目标关键词列表中的每一个目标关键词,以对应的源关键词为中心选取预定数目的候选源关键词,作为该目标关键词的候选翻译。 
其中,参考图10所示,所述候选翻译对列表生成模块801的另一种实现方式可以包括: 
查找子模块1001,用于针对每一个源句子,利用句子长度信息查找所述源句子对应的目标句子。 
确定子模块1002,用于如果源句子与目标句子的比值在预定范围内,且源句子与目标句子的长度差符合预设条件,则确定所述目标句子与源句子互为译文。 
获取子模块1003,用于针对属于所述源句子的源词和属于所述目标句子的目标词,获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对。 
判断子模块1004,用于判断所述源词和目标词对中的源词和目标词是否都不在停用词表中。 
生成子模块1005,用于当所述判断子模块的结果为是时,依据所述源词和目标词对生成候选翻译对列表。 
双语词典生成模块802,用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率。 
其中,参考图11所示,所述双语词典生成模块802的一种实现方式可以包括: 
翻译概率计算子模块1101,用于通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率: 
Pt(swi,twj)=log(P(swi|twj)×P(twj|swi)),其中, 
Figure BSA00000536037500151
所述translation_num(a)为a在b的候选翻译集合中的出现次数;word_frequency(b)是b的词频;swi为第i个源关键词,twi为第j个目标关键词。 
翻译对选取子模块1102,用于选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。 
双语词典扩展模块803,用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展。 
目标语言翻译模块804,用于基于扩展后的双语词典,将源块中的源句子翻译成目标语言。 
所述目标语言翻译模块804具体可以配置为:通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集。 
相似度计算模块805,用于计算翻译结果与目标块中的目标句子之间的相似度。 
其中,参考图12所示,所述相似度计算模块805的一种实现方式可以包括: 
句翻译分值计算子模块1201,用于按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值。 
其中所述句翻译分值计算子模块1201具体配置为:利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。 
相似度计算子模块1202,用于依据所述句翻译分值计算源句子与目标句子的相似度。 
对齐模块806,用于依据所述相似度对源句子和目标句子进行对齐。 
其中,参考图13所示,所述对齐模块806具体配置为: 
第一对齐子模块1301,用于依据所述相似度,对源句子和目标句子进行1∶1类型的对齐。 
第二对齐子模块1302,用于依据所述相似度,对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐,所述n大于或等于2且小于或等于4。 
通过本发明实施例提供的上述装置,能够通过双语词典的获取以及扩充,快速的从双语语料中确定出双语词典,进而能够依据双语词典来计算源句子与目标句子之间的相似度,这样就能够在对齐过程中依据相似度来进行,将相似度较高或者符合一定条件的源句子和目标句子进行对齐,这样既简化了句子对齐的流程,提高了对齐效率,还能够因为双语词典的选取以及句子相似度的计算而提高对齐的准确率。 
与本发明实施例提供的另一种对双语语料库进行句子对齐的方法相对应,本发明实施例还提供了另一种对双语语料库进行句子对齐的装置,参见图14,该装置可以包括: 
候选翻译对列表生成模块801,用于针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对。 
过滤模块1401,用于对所述候选翻译对列表中的翻译对进行过滤,具体为:对于源关键字sw的候选翻译集合{tw1,tw2,…,twn}中的每个候选翻译twi,只有sw也出现在所述twi的候选翻译集合中,且twi不在停用词列表中,才保留twi;或者,对于目标关键字tw的候选翻译集合{sw1,sw2,…,swn}中的每个候选翻译swi,只有tw也出现在所述swi的候选翻译集合中,且swi都不在停用词列表中,才保留swi。 
双语词典生成模块802,用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和 目标关键词对及其翻译概率。 
双语词典扩展模块803,用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展。 
目标语言翻译模块804,用于通过查询所述扩展后的双语词典得到源句子中各个源关键词对应的候选翻译集。 
句翻译分值计算子模块1201,用于按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值。 
锚点词分值计算子模块1402,用于计算锚点词分值。 
句子长度惩罚值计算子模块1403,用于根据源句子和目标句子的长度,计算句子长度惩罚值。 
相似度计算子模块1202,用于依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值计算源句子与目标句子的相似度。 
对齐模块806,用于依据所述相似度对源句子和目标句子进行对齐。 
通过采用另一种对双语语料库进行句子对齐的装置,还可以对候选翻译对列表中的候选翻译对进行过滤,进一步的还采用句翻译分值、锚点词分值和句子长度惩罚值三个参数来计算源句子与目标句子之间的相似度,这样可以保证在提高句子对齐的效率的同时,还能够提升句子对齐的精确度。 
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图15所示的通用个人计算机1500安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。 
在图15中,中央处理单元(CPU)1501根据只读存储器(ROM)1502中存储的程序或从存储部分1508加载到随机存取存储器(RAM)1503的程序执行各种处理。在RAM 1503中,也根据需要存储当CPU 1501执行各种处理等等时所需的数据。 
CPU 1501、ROM 1502和RAM 1503经由总线1504彼此连接。输入/输出接口1505也连接到总线1504。 
下述部件连接到输入/输出接口1505:输入部分1506,包括键盘、鼠标等等;输出部分1507,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分1508,包括硬盘等等;和通信部分1509,包括网络接口卡比如LAN卡、调制解调器等等。通信部分1509经由网络比如因特网执行通信处理。 
根据需要,驱动器1510也连接到输入/输出接口1505。可拆卸介质1511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1510上,使得从中读出的计算机程序根据需要被安装到存储部分1508中。 
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1511安装构成软件的程序。 
本领域的技术人员应当理解,这种存储介质不局限于图15所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1511。可拆卸介质1511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1502、存储部分1508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。 
还需要指出的是,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。 
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。 
关于包括以上实施例的实施方式,还公开下述附记: 
附记1.一种对双语语料库进行句子对齐的方法,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括: 
针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对; 
根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率; 
以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展; 
基于扩展后的双语词典,将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;以及 
依据所述相似度对源句子和目标句子进行对齐。 
2、根据附记1所述的方法,其中所述利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表的步骤,包括: 
分别计算源块和目标块中各个词的词频/反文档频率值; 
分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词,以形成所述源关键词列表和所述目标关键词列表; 
分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序; 
依次针对所述源关键词列表中的每一个源关键词,以对应的目标关键词为中心选取预定数目的候选目标关键词,作为该源关键词的候选翻译;以及 
针对目标关键词列表中的每一个目标关键词,以对应的源关键词为中心选取预定数目的候选源关键词,作为该目标关键词的候选翻译。 
3、根据附记1所述的方法,其中所述利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表的步骤,包括: 
针对每一个源句子,利用句子长度信息查找所述源句子对应的目标句子; 
如果源句子与目标句子的比值在预定范围内,且源句子与目标句子的长度差符合预设条件,则确定所述目标句子与源句子互为译文; 
针对属于所述源句子的源词和属于所述目标句子的目标词,获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对;以及 
判断所述源词和目标词对中的源词和目标词是否都不在停用词表 中,如果是,则依据所述源词和目标词对生成候选翻译对列表。 
4、根据附记2或3所述的方法,还包括: 
对所述候选翻译对列表中的翻译对进行过滤,具体为:对于源关键字sw的候选翻译集合{tw1,tw2,…,twn}中的每个候选翻译twi,只有sw也出现在所述twi的候选翻译集合中,且twi不在停用词列表中,才保留twi;或者,对于目标关键字tw的候选翻译集合{sw1,sw2,…,swn}中的每个候选翻译swi,只有tw也出现在所述swi的候选翻译集合中,且swi都不在停用词列表中,才保留swi。 
5、根据附记1所述的方法,其中所述根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典的步骤,包括: 
通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率: 
Pt(swi,twj)=log(P(swi|twj)×P(twj|swi)),其中, 
Figure BSA00000536037500201
所述translation_num(a)为a在b的候选翻译集合中的出现次数;word_frequency(b)是b的词频;swi为第i个源关键词,twi为第j个目标关键词;以及 
选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。 
6、根据附记1所述的方法,其中迭代执行对所述双语词典进行扩展的处理直至不能再生成新的词典条目为止。 
7、根据附记1所述的方法,其中,所述将源块中的源句子翻译成目标语言的步骤,具体包括: 
通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集; 
以及,所述计算翻译结果与目标块中的目标句子之间的相似度的处理步骤,具体包括: 
按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值; 
依据所述句翻译分值计算源句子与目标句子的相似度。 
8、根据附记7所述的方法,其中,所述计算翻译结果与目标块中的目标句子之间的相似度的处理步骤,还包括: 
计算锚点词分值; 
根据源句子和目标句子的长度,计算句子长度惩罚值;以及 
依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值,计算源句子与目标句子的相似度。 
9、根据附记7所述的方法,其中计算源句子与目标句子的句翻译分值进一步包括利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。 
10、根据附记8所述的方法,其中计算锚点词分值进一步包括利用锚点词在源句子中的出现次数、锚点词在目标句子中的出现次数以及锚点词在源句子和目标句子中同时出现的次数计算所述锚点词分值。 
11、根据附记1所述的方法,其中对源句子和目标句子进行对齐的步骤,包括: 
依据所述相似度,对源句子和目标句子进行1∶1类型的对齐;以及 
依据所述相似度,对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐,所述n大于或等于2且小于或等于4。 
12、一种对双语语料库进行句子对齐的装置,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,包括: 
候选翻译对列表生成模块,用于针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对; 
双语词典生成模块,用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率; 
双语词典扩展模块,用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展; 
目标语言翻译模块,用于基于扩展后的双语词典,将源块中的源句子翻译成目标语言; 
相似度计算模块,用于计算翻译结果与目标块中的目标句子之间 的相似度;以及 
对齐模块,用于依据所述相似度对源句子和目标句子进行对齐。 
13、根据附记12所述的装置,其中所述候选翻译对列表生成模块,包括: 
词频/反文档频率值计算子模块,用于分别计算源块和目标块中各个词的词频/反文档频率值; 
第一选取子模块,用于分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词,以形成所述源关键词列表和所述目标关键词列表; 
排序子模块,用于分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序; 
第二选取子模块,用于依次针对所述源关键词列表中的每一个源关键词,以对应的目标关键词为中心选取预定数目的候选目标关键词,作为该源关键词的候选翻译;以及 
第三选取子模块,用于针对目标关键词列表中的每一个目标关键词,以对应的源关键词为中心选取预定数目的候选源关键词,作为该目标关键词的候选翻译。 
14、根据附记12所述的装置,其中所述候选翻译对列表生成模块包括: 
查找子模块,用于针对每一个源句子,利用句子长度信息查找所述源句子对应的目标句子; 
确定子模块,用于如果源句子与目标句子的比值在预定范围内,且源句子与目标句子的长度差符合预设条件,则确定所述目标句子与源句子互为译文; 
获取子模块,用于针对属于所述源句子的源词和属于所述目标句子的目标词,获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对; 
判断子模块,用于判断所述源词和目标词对中的源词和目标词是否都不在停用词表中;以及 
生成子模块,用于当所述判断子模块的结果为是时,依据所述源词和目标词对生成候选翻译对列表。 
15、根据附记13或14所述的装置,还包括: 
过滤模块,用于对所述候选翻译对列表中的翻译对进行过滤,具体为: 对于源关键字sw的候选翻译集合{tw1,tw2,…,twn}中的每个候选翻译twi,只有sw也出现在所述twi的候选翻译集合中,且twi不在停用词列表中,才保留twi;或者,对于目标关键字tw的候选翻译集合{sw1,sw2,…,swn}中的每个候选翻译swi,只有tw也出现在所述swi的候选翻译集合中,且swi都不在停用词列表中,才保留swi。 
16、根据附记12所述的装置,其中所述双语词典生成模块包括: 
翻译概率计算子模块,用于通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率: 
Pt(swi,twj)=log(P(swi|twj)×P(twj|swi)),其中, 
Figure BSA00000536037500231
所述translation_num(a)为a在b的候选翻译集合中的出现次数;word_frequency(b)是b的词频;swi为第i个源关键词,twi为第j个目标关键词;以及 
翻译对选取子模块,用于选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。 
17、根据附记12所述的装置,其中所述目标语言翻译模块具体配置为: 
通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集; 
以及,所述相似度计算模块,具体包括: 
句翻译分值计算子模块,用于按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值; 
相似度计算子模块,用于依据所述句翻译分值计算源句子与目标句子的相似度。 
18、根据附记17所述的装置,其中所述相似度计算模块还包括: 
锚点词分值计算子模块,用于计算锚点词分值; 
句子长度惩罚值计算子模块,用于根据源句子和目标句子的长度,计算句子长度惩罚值;以及 
所述相似度计算子模块,具体用于依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值计算源句子与目标句子的相似度。 
19、根据附记17所述的装置,其中所述句翻译分值计算子模块具 体配置为:利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。 
20、根据附记12所述的装置,其中所述对齐模块具体配置为: 
第一对齐子模块,用于依据所述相似度,对源句子和目标句子进行1∶1类型的对齐;以及 
第二对齐子模块,用于依据所述相似度,对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐,所述n大于或等于2且小于或等于4。 

Claims (10)

1.一种对双语语料库进行句子对齐的方法,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:
针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;
根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;
以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;
基于扩展后的双语词典,将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;以及
依据所述相似度对源句子和目标句子进行对齐。
2.根据权利要求1所述的方法,还包括:
对所述候选翻译对列表中的翻译对进行过滤,具体为:对于源关键字sw的候选翻译集合{tw1,tw2,…,twn}中的每个候选翻译twi,只有sw也出现在所述twi的候选翻译集合中,且twi不在停用词列表中,才保留twi;或者,对于目标关键字tw的候选翻译集合{sw1,sw2,…,swn}中的每个候选翻译swi,只有tw也出现在所述swi的候选翻译集合中,且swi都不在停用词列表中,才保留swi
3.根据权利要求1所述的方法,其中所述根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典的步骤,包括:
通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率:
Pt(swi,twj)=log(P(swi|twj)×P(twj|swi)),其中,
Figure FSA00000536037400011
所述translation_num(a)为a在b的候选翻译集合中的出现次数;word_frequency(b)是b的词频;swi为第i个源关键词,twi为第j个目标关键词;以及
选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。
4.根据权利要求1所述的方法,其中,所述将源块中的源句子翻译成目标语言的步骤,具体包括:
通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集;
以及,所述计算翻译结果与目标块中的目标句子之间的相似度的处理步骤,具体包括:
按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值;
计算锚点词分值;
根据源句子和目标句子的长度,计算句子长度惩罚值;以及
依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值,计算源句子与目标句子的相似度。
5.根据权利要求1所述的方法,其中计算源句子与目标句子的句翻译分值进一步包括:利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。
6.一种对双语语料库进行句子对齐的装置,其中所述双语语料库中的源语言语料和目标语言语料是块对齐的,包括:
候选翻译对列表生成模块,用于针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表,所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对;
双语词典生成模块,用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典,所述双语词典中的每个条目包括源和目标关键词对及其翻译概率;
双语词典扩展模块,用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考所述种子翻译对的上下文内容对所述双语词典进行扩展;
目标语言翻译模块,用于基于扩展后的双语词典,将源块中的源句子翻译成目标语言;
相似度计算模块,用于计算翻译结果与目标块中的目标句子之间的相似度;以及
对齐模块,用于依据所述相似度对源句子和目标句子进行对齐。
7.根据权利要求6所述的装置,还包括:
过滤模块,用于对所述候选翻译对列表中的翻译对进行过滤,具体为:对于源关键字sw的候选翻译集合{tw1,tw2,…,twn}中的每个候选翻译twi,只有sw也出现在所述twi的候选翻译集合中,且twi不在停用词列表中,才保留twi;或者,对于目标关键字tw的候选翻译集合{sw1,sw2,…,swn}中的每个候选翻译swi,只有tw也出现在所述swi的候选翻译集合中,且swi都不在停用词列表中,才保留swi
8.根据权利要求6所述的装置,其中所述双语词典生成模块包括:
翻译概率计算子模块,用于通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率:
Pt(swi,twj)=log(P(swi|twj)×P(twj|swi)),其中,
Figure FSA00000536037400031
所述translation_num(a)为a在b的候选翻译集合中的出现次数;word_frequency(b)是b的词频;swi为第i个源关键词,twi为第j个目标关键词;以及
翻译对选取子模块,用于选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。
9.根据权利要求6所述的装置,其中所述目标语言翻译模块具体配置为:
通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集;
以及,所述相似度计算模块,具体包括:
句翻译分值计算子模块,用于按照所述源关键词与所述候选翻译之间的翻译概率,计算源句子与目标句子的句翻译分值;
锚点词分值计算子模块,用于计算锚点词分值;
句子长度惩罚值计算子模块,用于根据源句子和目标句子的长度,计算句子长度惩罚值;以及
相似度计算子模块,用于依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值计算源句子与目标句子的相似度。
10.根据权利要求6所述的装置,所述句翻译分值计算子模块具体配置为:利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。
CN2011101921715A 2011-06-30 2011-06-30 一种对双语语料库进行句子对齐的方法及装置 Pending CN102855263A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101921715A CN102855263A (zh) 2011-06-30 2011-06-30 一种对双语语料库进行句子对齐的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101921715A CN102855263A (zh) 2011-06-30 2011-06-30 一种对双语语料库进行句子对齐的方法及装置

Publications (1)

Publication Number Publication Date
CN102855263A true CN102855263A (zh) 2013-01-02

Family

ID=47401855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101921715A Pending CN102855263A (zh) 2011-06-30 2011-06-30 一种对双语语料库进行句子对齐的方法及装置

Country Status (1)

Country Link
CN (1) CN102855263A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617160A (zh) * 2013-12-11 2014-03-05 哈尔滨工业大学 基于两两对齐的多语种句对齐方法及装置
CN103955456A (zh) * 2014-04-23 2014-07-30 西安理工大学 基于句长惩罚因子的富含信息量句子的选择方法
WO2014206087A1 (zh) * 2013-06-26 2014-12-31 华为技术有限公司 日记生成方法及装置
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN104572629A (zh) * 2013-10-18 2015-04-29 富士通株式会社 生成单语解析模型的方法和装置以及语言转换装置
CN105824915A (zh) * 2016-03-16 2016-08-03 上海珍岛信息技术有限公司 一种网购产品评论文摘生成方法及系统
CN105869633A (zh) * 2011-04-25 2016-08-17 谷歌公司 语言模型的跨语种初始化
CN107193800A (zh) * 2017-05-18 2017-09-22 苏州黑云信息科技有限公司 一种面向第三方语言文本的语义吻合度评测方法及装置
CN107229613A (zh) * 2017-06-06 2017-10-03 锦州医科大学 一种基于向量空间模型的英汉语料提取方法
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN108345679A (zh) * 2018-02-26 2018-07-31 科大讯飞股份有限公司 一种音视频检索方法、装置、设备及可读存储介质
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109325242A (zh) * 2018-09-19 2019-02-12 苏州大学 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109697287A (zh) * 2018-12-20 2019-04-30 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及系统
CN110083837A (zh) * 2019-04-26 2019-08-02 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110210041A (zh) * 2019-05-23 2019-09-06 北京百度网讯科技有限公司 互译句对齐方法、装置及设备
CN110287498A (zh) * 2019-05-30 2019-09-27 北京百度网讯科技有限公司 层次化翻译方法、装置及存储介质
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111191469A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
CN111222346A (zh) * 2019-12-20 2020-06-02 北京海兰信数据科技股份有限公司 语料文件的处理方法及装置
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN112541062A (zh) * 2020-11-27 2021-03-23 北京百分点信息科技有限公司 平行语料对齐方法、装置、存储介质及电子设备
CN112668307A (zh) * 2020-12-30 2021-04-16 清华大学 一种双语句子自动对齐方法及装置
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
CA2727046A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
CN101714137A (zh) * 2008-10-06 2010-05-26 株式会社东芝 评价、选择例句对,构建通用例句库,机器翻译的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1567297A (zh) * 2003-07-03 2005-01-19 中国科学院声学研究所 一种从双语语料库中自动抽取多词翻译等价单元的方法
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
CA2727046A1 (en) * 2008-06-09 2009-12-17 National Research Council Of Canada Method and system for using alignment means in matching translation
CN101714137A (zh) * 2008-10-06 2010-05-26 株式会社东芝 评价、选择例句对,构建通用例句库,机器翻译的方法及装置

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869633A (zh) * 2011-04-25 2016-08-17 谷歌公司 语言模型的跨语种初始化
WO2014206087A1 (zh) * 2013-06-26 2014-12-31 华为技术有限公司 日记生成方法及装置
US8996360B2 (en) 2013-06-26 2015-03-31 Huawei Technologies Co., Ltd. Method and apparatus for generating journal
CN104572629B (zh) * 2013-10-18 2017-05-24 富士通株式会社 生成单语解析模型的方法和装置以及语言转换装置
CN104572629A (zh) * 2013-10-18 2015-04-29 富士通株式会社 生成单语解析模型的方法和装置以及语言转换装置
CN103617160A (zh) * 2013-12-11 2014-03-05 哈尔滨工业大学 基于两两对齐的多语种句对齐方法及装置
CN103955456A (zh) * 2014-04-23 2014-07-30 西安理工大学 基于句长惩罚因子的富含信息量句子的选择方法
CN104360996A (zh) * 2014-11-27 2015-02-18 武汉传神信息技术有限公司 双语文本的句子对齐方法
CN105824915A (zh) * 2016-03-16 2016-08-03 上海珍岛信息技术有限公司 一种网购产品评论文摘生成方法及系统
CN105843801B (zh) * 2016-03-25 2018-05-11 北京语言大学 多译本平行语料库的构建系统
CN107193800A (zh) * 2017-05-18 2017-09-22 苏州黑云信息科技有限公司 一种面向第三方语言文本的语义吻合度评测方法及装置
CN107193800B (zh) * 2017-05-18 2023-09-01 苏州黑云智能科技有限公司 一种面向第三方语言文本的语义吻合度评测方法及装置
CN107229613A (zh) * 2017-06-06 2017-10-03 锦州医科大学 一种基于向量空间模型的英汉语料提取方法
CN108345679B (zh) * 2018-02-26 2021-03-23 科大讯飞股份有限公司 一种音视频检索方法、装置、设备及可读存储介质
CN108345679A (zh) * 2018-02-26 2018-07-31 科大讯飞股份有限公司 一种音视频检索方法、装置、设备及可读存储介质
CN108549629A (zh) * 2018-03-19 2018-09-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN108549629B (zh) * 2018-03-19 2021-06-18 昆明理工大学 一种结合相似度和图匹配的老-汉双语句子对齐方法
CN109325242B (zh) * 2018-09-19 2023-06-13 苏州大学 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109325242A (zh) * 2018-09-19 2019-02-12 苏州大学 基于词对和翻译判断句子是否对齐的方法、装置及设备
CN109697287A (zh) * 2018-12-20 2019-04-30 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及系统
CN109697287B (zh) * 2018-12-20 2020-01-21 龙马智芯(珠海横琴)科技有限公司 句子级双语对齐方法及系统
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109684648B (zh) * 2019-01-14 2020-09-01 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN110083837A (zh) * 2019-04-26 2019-08-02 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110083837B (zh) * 2019-04-26 2023-11-24 科大讯飞股份有限公司 一种关键词生成方法及装置
CN110210041A (zh) * 2019-05-23 2019-09-06 北京百度网讯科技有限公司 互译句对齐方法、装置及设备
CN110287498A (zh) * 2019-05-30 2019-09-27 北京百度网讯科技有限公司 层次化翻译方法、装置及存储介质
CN110717341B (zh) * 2019-09-11 2022-06-14 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN111191469A (zh) * 2019-12-17 2020-05-22 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
CN111191469B (zh) * 2019-12-17 2023-09-19 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
CN111222346A (zh) * 2019-12-20 2020-06-02 北京海兰信数据科技股份有限公司 语料文件的处理方法及装置
CN111597826B (zh) * 2020-05-15 2021-10-01 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN111597826A (zh) * 2020-05-15 2020-08-28 苏州七星天专利运营管理有限责任公司 一种辅助翻译中处理术语的方法
CN112541062A (zh) * 2020-11-27 2021-03-23 北京百分点信息科技有限公司 平行语料对齐方法、装置、存储介质及电子设备
CN112541062B (zh) * 2020-11-27 2022-11-25 北京百分点科技集团股份有限公司 平行语料对齐方法、装置、存储介质及电子设备
CN112668307A (zh) * 2020-12-30 2021-04-16 清华大学 一种双语句子自动对齐方法及装置
CN112766002A (zh) * 2021-01-14 2021-05-07 语联网(武汉)信息技术有限公司 基于动态规划的文本对齐方法及系统

Similar Documents

Publication Publication Date Title
CN102855263A (zh) 一种对双语语料库进行句子对齐的方法及装置
Bhagavatula et al. Tabel: Entity linking in web tables
Kenter et al. Short text similarity with word embeddings
Liu et al. Opinion target extraction using word-based translation model
US8156053B2 (en) Automated tagging of documents
Halevy et al. The unreasonable effectiveness of data
Tsai et al. NERBio: using selected word conjunctions, term normalization, and global patterns to improve biomedical named entity recognition
CN102945228B (zh) 一种基于文本分割技术的多文档文摘方法
US20160350283A1 (en) Apparatus, system and method for application-specific and customizable semantic similarity measurement
CN102214189B (zh) 基于数据挖掘获取词用法知识的系统及方法
CN102831131B (zh) 构建标注网页语料库的方法及装置
Singh et al. A novel unsupervised corpus-based stemming technique using lexicon and corpus statistics
CN105808711A (zh) 一种基于文本语义的概念生成模型的系统和方法
Wang et al. A probabilistic approach to string transformation
JP2015529901A (ja) 製品認識に基づく情報分類
Azad et al. Improving query expansion using pseudo-relevant web knowledge for information retrieval
CN103914533A (zh) 推广搜索结果的展现方法和装置
Eger et al. A comparison of four character-level string-to-string translation models for (OCR) spelling error correction
CN109657052B (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
Song et al. Multiple order semantic relation extraction
Miao et al. An integration strategy for mining product features and opinions
Séaghdha Annotating and learning compound noun semantics
Bouziri et al. Learning query expansion from association rules between terms
CN103678407A (zh) 数据处理方法和数据处理设备
Krajewski et al. A novel method for dictionary translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130102