CN102855263A

CN102855263A - 一种对双语语料库进行句子对齐的方法及装置

Info

Publication number: CN102855263A
Application number: CN2011101921715A
Authority: CN
Inventors: 郑仲光; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-30
Filing date: 2011-06-30
Publication date: 2013-01-02

Abstract

本发明实施例公开了一种对双语语料库进行句子对齐的方法及装置，其中双语语料库中的源语言语料和目标语言语料是块对齐的，所述方法包括：针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表；根据候选翻译对列表中的每个翻译对的翻译概率生成双语词典；以双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考种子翻译对的上下文内容对双语词典进行扩展；将源块中的源句子翻译成目标语言，并计算翻译结果与目标块中的目标句子之间的相似度；依据相似度对源句子和目标句子进行对齐。通过本发明实施例，能够简化句子对齐时的流程，进而提高句子对齐的效率。

Description

一种对双语语料库进行句子对齐的方法及装置

技术领域

本发明一般地涉及数据处理技术领域，尤其是一种对双语语料库进行句子对齐的方法及装置。

背景技术

目前，统计的方法越来越多的应用在自然语言处理领域中，因此语料的作用也越来越重要。其中双语平行语料(简称双语语料)指的是由两种语言(分别称为源语言F和目标语言E)构成的语料，并且该语料以句子为单位互为译文。在很多自然语言处理任务中，双语语料是重要的知识源，例如：统计机器翻译、跨语言检索等领域。因此，双语语料的数量与质量很大程度上影响甚至决定了相关任务的最终结果。

很多情况下，大量的双语语料容易获得，例如从双语网站或多个语言版本的文献资料等，但是得到的文本通常并不是以句子为单位对齐的，例如有些是以段落为单位对齐的，有些甚至是按照整篇文本来对齐的。这种情况下，就需要将这些不是以句子为单位对齐的语料(也可以称为原始语料)整理成需要的句对齐格式。

现有技术中对双语语料库进行句子对齐的方法主要有以下几种：基于句子长度分布的方法；该方法考虑源语言跟目标语言的句子长度信息，根据句子长度的分布来寻找对齐关系，但是这种方法的鲁棒性不好，只能用于特定的一些语言之间；基于词典的方法：但是词典作为不可或缺的资源很多情况下不容易获得，或者已有的词典与双语语料并不是同一领域的，因此基于词典的方法局限性比较大，且不容易扩展。基于统计的方法可以将基于句子长度分布的方法和基于词典的方法相结合，但是基于统计的方法复杂度高，在处理大规模数据时非常耗时，因此也无法满足实际需求。

总之，现有技术中对双语语料进行句子对齐时，不仅在实现时复杂度高且非常耗时，而且也会因此而导致现有技术的效率非常低下。

发明内容

有鉴于此，本发明实施例提供了一种对双语语料库进行句子对齐的方法及装置，能够简化句子对齐时的流程，进而可以提高句子对齐的效率。

根据本发明实施例的一个方面，提供一种对双语语料库进行句子对齐的方法，其中所述双语语料库中的源语言语料和目标语言语料是块对齐的，所述方法包括：针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对；根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率；以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展；基于扩展后的双语词典，将源块中的源句子翻译成目标语言，并计算翻译结果与目标块中的目标句子之间的相似度；以及依据所述相似度对源句子和目标句子进行对齐。

根据本发明实施例的另一个方面，提供一种对双语语料库进行句子对齐的装置，其中所述双语语料库中的源语言语料和目标语言语料是块对齐的，包括：候选翻译对列表生成模块，用于针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对；双语词典生成模块，用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率；双语词典扩展模块，用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展；目标语言翻译模块，用于基于扩展后的双语词典，将源块中的源句子翻译成目标语言；相似度计算模块，用于计算翻译结果与目标块中的目标句子之间的相似度；以及对齐模块，用于依据所述相似度对源句子和目标句子进行对齐。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述一种对双语语料库进行句子对齐的方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述一种对双语语料库进行句子对齐的方法。

根据本发明实施例的上述一种方法，能够通过双语词典的获取以及扩充，快速的从双语语料中确定出双语词典，进而能够依据双语词典来计算源句子与目标句子之间的相似度，这样就能够在对齐过程中依据相似度来进行，将相似度较高或者符合一定条件的源句子和目标句子进行对齐，这样既简化了句子对齐的流程，提高了对齐效率，还能够因为双语词典的选取以及句子相似度的计算而提高对齐的准确率。

在下面的说明书部分中给出本发明实施例的其他方面，其中，详细说明用于充分地公开本发明实施例的优选实施例，而不对其施加限定。

附图说明

下面结合具体的实施例，并参照附图，对本发明实施例的上述和其它目的和优点做进一步的描述。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。

图1是示出作为本发明实施例提供的第一种方法的流程图；

图2是示出本发明实施例的第一种方法中步骤S101的一种流程图；

图3是示出本发明实施例的第一种方法中步骤S101的另一种流程图；

图4是示出本发明实施例的第一种方法中步骤S102的流程图；

图5是示出本发明实施例的第一种方法中步骤S105的流程图；

图6是示出本发明实施例的第一种方法中步骤S106的流程图；

图7是示出作为本发明实施例提供的另一种方法的流程图；

图8是示出作为本发明实施例提供的第一种装置的示意图；

图9是示出本发明实施例的第一种装置中候选翻译对列表生成模块 801的一种示意图；

图10是示出本发明实施例的第一种装置中候选翻译对列表生成模块801的另一种示意图；

图11是示出本发明实施例的第一种装置中双语词典生成模块802的示意图；

图12是示出本发明实施例的第一种装置中相似度计算模块805的示意图；

图13是示出本发明实施例的第一种装置中对齐模块806的示意图；

图14是示出作为本发明实施例提供的另一种装置的示意图；

图15是示出作为本发明的实施例中所采用的信息处理设备的个人计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。

参见图1，本发明实施例提供的第一种对双语语料库进行句子对齐的方法，可以包括：

S101：针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对。

在实际应用中，原始语料往往是以段落或者篇章为最小单元对齐的，在本发明中这些最小的对齐单元称为“块”。例如，在一个块B中，如果一个词a在源语言F中是关键词，那么它的译文b在目标语言E中很有可能也是关键词；因此可以先找到源语言F和目标语言E中的关键词生成候选翻译对列表。

具体的，参考图2所示，所述步骤S101在实际应用中可以包括：

S201：分别计算源块和目标块中各个词的词频/反文档频率值。

本发明实施例中采用词汇的词频/反文档频率(TF/IDF，term frequency-inverse document frequency)值来衡量源语言或者目标语言中的一个词是否为关键词。其中，词w的TF和IDF值分别表示为公式(1)和(2)：

{TF}_{w} = \frac{{WN}_{w}}{{WN}_{B}} - - - (1)

{IDF}_{w} = \frac{{DN}_{total}}{{DN}_{w}} - - - (2)

其中WN_w表示w在块B中的词频，WN_B表示一个块B包含的词汇总数量；DN_total表示原始语料中所有块的数量，DN_w表示在所有块中，包含w的块的数量。则词w的TF/IDF值的计算方法如公式(3)所示：

TF/IDF_w＝log(TF_w×IDF_w)(3)

S202：分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词，以形成所述源关键词列表和所述目标关键词列表。

在实际应用中，计算出各个词的TF/IDF值之后，需要根据TF/IDF值的大小从源块和目标块中选取可能是关键词的词分别作为源关键词和目标关键词，并形成所述源关键词列表和所述目标关键词列表。

S203：分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序。

在计算块B中源语言F和目标语言E的每个词sw_i和tw_j的TF/IDF值之后，可以得到两个按照TF/IDF值排序的词汇列表(如表1所示)，在列表中处于相似位置的词汇很可能互为译文。因此选择在此列表中分布相近的词汇作为候选翻译对。例如对于源关键词sw_i，可以选择目标关键词tw_i及其前后N个词作为候选译文(其中，N为大于或等于1的自然数)，其中sw_i和tw_j的TF/IDF值也需要大于预先设定的阈值T。

表1

S204：依次针对所述源关键词列表中的每一个源关键词，以对应的目标关键词为中心选取预定数目的候选目标关键词，作为该源关键词的候选翻译。

S205：针对目标关键词列表中的每一个目标关键词，以对应的源关键词为中心选取预定数目的候选源关键词，作为该目标关键词的候选翻译。

在表2给出一个例子，对于sw₂可以选择tw₂和N＝1范围内的源关键词作为其候选译文，即是表2中下划线所示出的tw₁、tw₂和tw₃。

表2

需要说明的是，在实际应用中，生成候选关键词列表还可以采用其他方式来获得。如下将介绍所述步骤101的另一种实现方式。

参考图3所示，所述步骤101具体可以包括：

S301：针对每一个源句子，利用句子长度信息查找所述源句子对应的目标句子。

在一个块里面，如果一个源语言句子和一个目标语言句子互为译文，那么在这个句对里面频率相同的词汇可能互为译文。因此，本步骤首先利用句子长度信息找到源语言句子S_i对应目标语句子T_j。

S302：如果源句子与目标句子的比值在预定范围内，且源句子与目标句子的长度差符合预设条件，则确定所述目标句子与源句子互为译文。

如果S_i与T_j长度的比值在一个设定的范围ε内，并且|i-j|小于一个预设值d，那么确定S_i与T_j互为译文。需要说明的是，由于ε与d限制严格，因此只有一部分源语言句子会找到对应的目标语言句子，而且对应关系不够准确，所以这种方法不能直接用来做句子对齐。

S303：针对属于所述源句子的源词和属于所述目标句子的目标词，获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对。

S304：判断所述源词和目标词对中的源词和目标词是否都不在停用词表中，如果是，则进入步骤S305。

例如，在S_i与T_j中，如果词sw_m∈S_i和tw_n∈T_j在句子中的出现次数相同并且都不在停用词表内，则认为sw_m与tw_n互译。

S305：依据所述源词和目标词对生成候选翻译对列表。

根据互译的源关键词sw_m与目标关键词tw_n生成最终的候选翻译对列表，以便于后续可以根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典。

S102：根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率。

在步骤S101中生成的候选翻译对列表中的每个翻译对中，每个翻译对都是互为译文的源关键词和目标关键词，本步骤需要计算每一个翻译对的翻译概率。下面详细介绍翻译概率的计算过程。

考图4所示，所述步骤S102具体可以包括：

S401：计算候选翻译对列表中的每个翻译对的翻译概率。

本步骤即是通过公式(4)计算sw_i与tw_j的互译概率Pt(sw_i，tw_j)：

Pt(sw_i，tw_j)＝log(P(sw_i|tw_j)×P(tw_j|sw_i))(4)

其中，P(a|b)通过公式(5)计算：

P (a | b) = \frac{translation_num (a)}{word_frequency (b)} - - - (5)

其中，translation_num(a)为a在b的候选翻译集合中的出现次数；word_frequency(b)是b的词频；sw_i为第i个源关键词，tw_i为第j个目标关键词。

S402：选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。

在计算得到各个翻译对的翻译概率之后，因为翻译概率低的翻译对说明源关键词和目标关键词之间的并不能很好的对应，所以预先设定一个阈值来选取出翻译概率大于预设阈值的翻译对生成所述双语词典，其中，双语词典中的每个条目包括源和目标关键词对及其翻译概率。

S103：以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展。

当双语词典确定下来之后，可以通过该双语词典中的关键词在原始文本中的上下文来扩展所述双语词典。例如，<处理，processing>是一个种子翻译对，那么在原文中则考察“处理”和“processing”的上下文，结果发现“单元”和“unit”经常同时出现在其后面，那么<单元，unit>便可作为新的种子翻译对加入所述原始的双语词典。其中，需要说明的是，这个过程一直进行直到不再有新的种子产生，即是迭代执行对所述双语词典进行扩展的处理直至不能再生成新的词典条目为止。

扩充结束后便可以得到用于翻译的最终的双语词典。表3给出部分的双语词典抽取结果，其中，F表示源语言，T表示译文，译文T后的分数表示翻译概率。

表3

S104：基于扩展后的双语词典，将源块中的源句子翻译成目标语言。

其中所述步骤104具体可以为：通过查询所述扩充后的双语词典得到源句子中各个源关键词对应的候选翻译集。

假设句子S_i＝[sw₁，sw₂，…，sw_n]，T_j＝[tw₁，tw₂，…，tw_m]，其中sw_h和tw_k表示句子中的一个词。对于每个sw_h，在词典中查找其所有译文，则S_i可以转换成目标语言，即为：S_i＝[sw₁{tw_1，1，…，tw_1，n}，sw₂{tw_2，1，…，tw_2，m}，…，sw_n{tw_n，1，…，tw_n，h}]，其中tw_h，k，表示sw_h对应的一个译文。

S105：计算翻译结果与目标块中的目标句子之间的相似度。

本步骤即是计算步骤104中的翻译结果S_i＝[sw₁{tw_1，1，…，tw_1，n}，sw₂{tw_2，1，…，tw_2，m}，…，sw_n{tw_n，1，…，tw_n，h}]与目标句子之间的相似度。

参考图5所示，在实际应用中所述步骤S105具体可以包括：

S501：按照所述源关键词与所述候选翻译之间的翻译概率，计算源句子与目标句子的句翻译分值。

其中计算源句子与目标句子的句翻译分值进一步包括：利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。

具体的，所述句翻译分值可以采用公式(6)计算：

S_{trans} (S, T) = Σ_{i = 1}^{n} \log (λ_{i} \times \frac{\min {({sf}_{swi}, {tf}_{twj})}^{2}}{{sf}_{swi} \times {tf}_{twj}}) - - - (6)

其中，所述sf_swi是源关键词sw_i在源句子S中的出现次数，tf_twj是目标关键词tw_j在目标句子T中的出现次数；λ_i是源关键词sw_i和目标关键词tw_j的翻译概率。

S502：依据所述句翻译分值计算源句子与目标句子的相似度。

再根据上述计算出的句翻译分值来计算源句子与目标句子之间的相似度。需要说明的是，在本实施例中相似度的计算可以只依据句翻译分值进行，但是在不同的应用中，也可以引入其他参数，例如锚点词分值或者句子长度惩罚值等来计算源句子与目标句子的相似度。

S106：依据所述相似度对源句子和目标句子进行对齐。

再依据源句子与目标句子之间计算出的相似度来进行对齐。具体的，参考图6所示，所述步骤S106在实际应用中具体可以包括：

S601：依据所述相似度，对源句子和目标句子进行1∶1类型的对齐。

在实际应用中，源语言与目标语言1∶1(即是1句对应1句)的情况占了大多数，因此，本实施例中首先寻找1∶1的对齐类型，如果源句子与目标句子之间的相似度Sim(S_i，T_j)大于某个预先设定的阈值，则认为S_i和T_j是1∶1对齐的。其中，阈值可以根据实际场景或者需求适应性调整。

S602：依据所述相似度，对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐，所述n大于或等于2且小于或等于4。

然后再在剩下的未对齐的关系中寻找以下几种对齐关系：1∶2，1∶3，1∶4，2∶1，3∶1，或者，4∶1。当然，本领域技术人员也可以根据实际需求进行1∶5或者5∶1等类型的对齐，本实施例中就不再一一列举。

通过上述第一种对双语语料库进行句子对齐的方法，首先通过双语词典的获取以及扩充，可以快速的从双语语料中确定出双语词典，进而能够依据双语词典来计算源句子与目标句子之间的相似度，这样就能够在对齐过程中依据相似度来进行，将相似度较高或者符合一定条件的源句子和目标句子进行对齐，这样既简化了句子对齐的流程，提高了对齐效率，还能够因为双语词典的选取以及句子相似度的计算而提高对齐的准确率。

参见图7，本发明实施例提供了另一种对双语语料库进行句子对齐的方法，可以包括：

S701：针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对。

步骤S701因为在前述第一种方法中已经详细介绍，在此不再赘述。

S702：对所述候选翻译对列表中的翻译对进行过滤。

本实施例与上一个实施例不同的是，本实施例还包括对候选翻译对列表进行过滤的步骤。其中，步骤S702在实际应用中具体执行时，可以为：对于源关键字sw的候选翻译集合{tw₁，tw₂，…，tw_n}中的每个候选翻译tw_i，只有sw也出现在所述tw_i的候选翻译集合中，且tw_i不在停用词列表中，才保留tw_i；以及，对于目标关键字tw的候选翻译集合{sw₁，sw₂，…，sw_n}中的每个候选翻译sw_i，只有tw也出现在所述sw_i的候选翻译集合中，且sw_i都不在停用词列表中，才保留sw_i。

可以看出本步骤需要从“源语言→目标语言”和“目标语言→源语言”两个方向上查找候选译文，因此，一个源语言词汇sw_i会有多个候选译文[tw₁，tw₂，…，tw_m]，同样一个目标语言词汇tw_j也会有多个候选译文[sw₁， sw₂，…，sw_n]。如果sw_i和tw_j互为译文，并且sw_i和tw_j都不在停用词表内，则再进入双语词典的生成步骤。

S703：根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率。

S704：以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展。

S705：通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集。

其中，候选翻译集中包括各个源关键词对应的候选翻译。

S706：按照所述源关键词与所述候选翻译之间的翻译概率，计算源句子与目标句子的句翻译分值。

在本实施例中，对于一个块B，在计算源语言句子S_i与目标语言句子T_j的相似度Sim(S_i，T_j)时，使用到的参数包括三个：锚点相似度(S_anchor)、翻译相似度(S_trans)和长度惩罚(S_{len_penalty})。在本步骤中首先计算源句子与目标句子的句翻译分值，具体计算过程在第一种方法中已经详细介绍，在此不再赘述。

S707：计算锚点词分值。

其中，计算锚点词分值进一步包括：利用锚点词在源句子中的出现次数、锚点词在目标句子中的出现次数以及锚点词在源句子和目标句子中同时出现的次数计算所述锚点词分值。

所述锚点词在本发明实施例中定义为在源句子S_i与目标句子T_j中都出现的词。例如，S_i＝“如图12所示”，T_j＝“As shown in Figure 12”，则“12”为一个锚点词。具体的，锚点词分值采用公式(7)计算：

S_{anchor} (S, T) = Σ_{i = 1}^{n} \log (μ \times \frac{{cooc}_{wi}^{2}}{{sf}_{wi} \times {tf}_{wi}}) - - - (7)

其中，cooc_wi是锚点词wi在源句子和目标句子中同时出现的次数； sf_wi是锚点词wi在源句子中的出现次数；tf_wi是锚点词wi在目标句子中的出现次数，μ是预定权重。

S708：根据源句子和目标句子的长度，计算句子长度惩罚值。

接着根据源句子计算和目标句子的长度计算句子长度惩罚值，可以采用公式(8)：

S_{len_penalty} (S, T) = \log (\frac{\min (length (S), length (T))}{\max (length (S), length (T)) \times {threshold}_{len}}) - - - (8)

其中，length(S)表示句子S的长度，threshold_len是预定阈值。

S709：依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值，计算源句子与目标句子的相似度。

当句翻译分值、所述锚点词分值和所述句子长度惩罚值都计算得到之后，再采用公式(9)计算源句子与目标句子的相似度：

Sim(S_i，T_j)＝S_anchor(S_i，T_j)+S_trans(S_i，T_j)+S_{len_penalty}(S_i，T_j)(9)

S710：依据所述相似度对源句子和目标句子进行对齐。

需要说明的是，本发明实施例中涉及到的预定阈值，均可以根据经验值获得或根据实际需要进行设置，因此本发明不进行限定。

总之，采用本发明实施例的另一种对双语语料库进行句子对齐的方法，还可以对候选翻译对列表中的候选翻译对进行过滤，进一步的还采用句翻译分值、锚点词分值和句子长度惩罚值三个参数来计算源句子与目标句子之间的相似度，这样可以保证在提高句子对齐的效率的同时，还能够提升句子对齐的精确度。

与本发明实施例提供的第一种对双语语料库进行句子对齐的方法相对应，本发明实施例还提供了一种对双语语料库进行句子对齐的装置，参见图8，该装置可以包括：

候选翻译对列表生成模块801，用于针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对。

其中，参考图9所示，所述候选翻译对列表生成模块801的一种实现方式可以包括：

词频/反文档频率值计算子模块901，用于分别计算源块和目标块中各个词的词频/反文档频率值。

第一选取子模块902，用于分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词，以形成所述源关键词列表和所述目标关键词列表。

排序子模块903，用于分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序

第二选取子模块904，用于依次针对所述源关键词列表中的每一个源关键词，以对应的目标关键词为中心选取预定数目的候选目标关键词，作为该源关键词的候选翻译。

第三选取子模块905，用于针对目标关键词列表中的每一个目标关键词，以对应的源关键词为中心选取预定数目的候选源关键词，作为该目标关键词的候选翻译。

其中，参考图10所示，所述候选翻译对列表生成模块801的另一种实现方式可以包括：

查找子模块1001，用于针对每一个源句子，利用句子长度信息查找所述源句子对应的目标句子。

确定子模块1002，用于如果源句子与目标句子的比值在预定范围内，且源句子与目标句子的长度差符合预设条件，则确定所述目标句子与源句子互为译文。

获取子模块1003，用于针对属于所述源句子的源词和属于所述目标句子的目标词，获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对。

判断子模块1004，用于判断所述源词和目标词对中的源词和目标词是否都不在停用词表中。

生成子模块1005，用于当所述判断子模块的结果为是时，依据所述源词和目标词对生成候选翻译对列表。

双语词典生成模块802，用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率。

其中，参考图11所示，所述双语词典生成模块802的一种实现方式可以包括：

翻译概率计算子模块1101，用于通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率：

Pt(sw_i，tw_j)＝log(P(sw_i|tw_j)×P(tw_j|sw_i))，其中，

所述translation_num(a)为a在b的候选翻译集合中的出现次数；word_frequency(b)是b的词频；sw_i为第i个源关键词，tw_i为第j个目标关键词。

翻译对选取子模块1102，用于选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。

双语词典扩展模块803，用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展。

目标语言翻译模块804，用于基于扩展后的双语词典，将源块中的源句子翻译成目标语言。

所述目标语言翻译模块804具体可以配置为：通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集。

相似度计算模块805，用于计算翻译结果与目标块中的目标句子之间的相似度。

其中，参考图12所示，所述相似度计算模块805的一种实现方式可以包括：

句翻译分值计算子模块1201，用于按照所述源关键词与所述候选翻译之间的翻译概率，计算源句子与目标句子的句翻译分值。

其中所述句翻译分值计算子模块1201具体配置为：利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。

相似度计算子模块1202，用于依据所述句翻译分值计算源句子与目标句子的相似度。

对齐模块806，用于依据所述相似度对源句子和目标句子进行对齐。

其中，参考图13所示，所述对齐模块806具体配置为：

第一对齐子模块1301，用于依据所述相似度，对源句子和目标句子进行1∶1类型的对齐。

第二对齐子模块1302，用于依据所述相似度，对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐，所述n大于或等于2且小于或等于4。

通过本发明实施例提供的上述装置，能够通过双语词典的获取以及扩充，快速的从双语语料中确定出双语词典，进而能够依据双语词典来计算源句子与目标句子之间的相似度，这样就能够在对齐过程中依据相似度来进行，将相似度较高或者符合一定条件的源句子和目标句子进行对齐，这样既简化了句子对齐的流程，提高了对齐效率，还能够因为双语词典的选取以及句子相似度的计算而提高对齐的准确率。

与本发明实施例提供的另一种对双语语料库进行句子对齐的方法相对应，本发明实施例还提供了另一种对双语语料库进行句子对齐的装置，参见图14，该装置可以包括：

过滤模块1401，用于对所述候选翻译对列表中的翻译对进行过滤，具体为：对于源关键字sw的候选翻译集合{tw₁，tw₂，…，tw_n}中的每个候选翻译tw_i，只有sw也出现在所述tw_i的候选翻译集合中，且tw_i不在停用词列表中，才保留tw_i；或者，对于目标关键字tw的候选翻译集合{sw₁，sw₂，…，sw_n}中的每个候选翻译sw_i，只有tw也出现在所述sw_i的候选翻译集合中，且sw_i都不在停用词列表中，才保留sw_i。

目标语言翻译模块804，用于通过查询所述扩展后的双语词典得到源句子中各个源关键词对应的候选翻译集。

锚点词分值计算子模块1402，用于计算锚点词分值。

句子长度惩罚值计算子模块1403，用于根据源句子和目标句子的长度，计算句子长度惩罚值。

相似度计算子模块1202，用于依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值计算源句子与目标句子的相似度。

通过采用另一种对双语语料库进行句子对齐的装置，还可以对候选翻译对列表中的候选翻译对进行过滤，进一步的还采用句翻译分值、锚点词分值和句子长度惩罚值三个参数来计算源句子与目标句子之间的相似度，这样可以保证在提高句子对齐的效率的同时，还能够提升句子对齐的精确度。

另外，还应该指出的是，上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图15所示的通用个人计算机1500安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图15中，中央处理单元(CPU)1501根据只读存储器(ROM)1502中存储的程序或从存储部分1508加载到随机存取存储器(RAM)1503的程序执行各种处理。在RAM 1503中，也根据需要存储当CPU 1501执行各种处理等等时所需的数据。

CPU 1501、ROM 1502和RAM 1503经由总线1504彼此连接。输入/输出接口1505也连接到总线1504。

下述部件连接到输入/输出接口1505：输入部分1506，包括键盘、鼠标等等；输出部分1507，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分1508，包括硬盘等等；和通信部分1509，包括网络接口卡比如LAN卡、调制解调器等等。通信部分1509经由网络比如因特网执行通信处理。

根据需要，驱动器1510也连接到输入/输出接口1505。可拆卸介质1511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1510上，使得从中读出的计算机程序根据需要被安装到存储部分1508中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1511安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图15所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1511。可拆卸介质1511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1502、存储部分1508中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

还需要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

虽然已经详细说明了本发明及其优点，但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

关于包括以上实施例的实施方式，还公开下述附记：

附记1.一种对双语语料库进行句子对齐的方法，其中所述双语语料库中的源语言语料和目标语言语料是块对齐的，所述方法包括：

针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对；

根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率；

以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展；

基于扩展后的双语词典，将源块中的源句子翻译成目标语言，并计算翻译结果与目标块中的目标句子之间的相似度；以及

依据所述相似度对源句子和目标句子进行对齐。

2、根据附记1所述的方法，其中所述利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表的步骤，包括：

分别计算源块和目标块中各个词的词频/反文档频率值；

分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词，以形成所述源关键词列表和所述目标关键词列表；

分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序；

依次针对所述源关键词列表中的每一个源关键词，以对应的目标关键词为中心选取预定数目的候选目标关键词，作为该源关键词的候选翻译；以及

针对目标关键词列表中的每一个目标关键词，以对应的源关键词为中心选取预定数目的候选源关键词，作为该目标关键词的候选翻译。

3、根据附记1所述的方法，其中所述利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表的步骤，包括：

针对每一个源句子，利用句子长度信息查找所述源句子对应的目标句子；

如果源句子与目标句子的比值在预定范围内，且源句子与目标句子的长度差符合预设条件，则确定所述目标句子与源句子互为译文；

针对属于所述源句子的源词和属于所述目标句子的目标词，获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对；以及

判断所述源词和目标词对中的源词和目标词是否都不在停用词表中，如果是，则依据所述源词和目标词对生成候选翻译对列表。

4、根据附记2或3所述的方法，还包括：

对所述候选翻译对列表中的翻译对进行过滤，具体为：对于源关键字sw的候选翻译集合{tw₁，tw₂，…，tw_n}中的每个候选翻译tw_i，只有sw也出现在所述tw_i的候选翻译集合中，且tw_i不在停用词列表中，才保留tw_i；或者，对于目标关键字tw的候选翻译集合{sw₁，sw₂，…，sw_n}中的每个候选翻译sw_i，只有tw也出现在所述sw_i的候选翻译集合中，且sw_i都不在停用词列表中，才保留sw_i。

5、根据附记1所述的方法，其中所述根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典的步骤，包括：

通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率：

Pt(sw_i，tw_j)＝log(P(sw_i|tw_j)×P(tw_j|sw_i))，其中，

所述translation_num(a)为a在b的候选翻译集合中的出现次数；word_frequency(b)是b的词频；sw_i为第i个源关键词，tw_i为第j个目标关键词；以及

选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。

6、根据附记1所述的方法，其中迭代执行对所述双语词典进行扩展的处理直至不能再生成新的词典条目为止。

7、根据附记1所述的方法，其中，所述将源块中的源句子翻译成目标语言的步骤，具体包括：

通过查询所述双语词典得到源句子中各个源关键词对应的候选翻译集；

以及，所述计算翻译结果与目标块中的目标句子之间的相似度的处理步骤，具体包括：

按照所述源关键词与所述候选翻译之间的翻译概率，计算源句子与目标句子的句翻译分值；

依据所述句翻译分值计算源句子与目标句子的相似度。

8、根据附记7所述的方法，其中，所述计算翻译结果与目标块中的目标句子之间的相似度的处理步骤，还包括：

计算锚点词分值；

根据源句子和目标句子的长度，计算句子长度惩罚值；以及

依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值，计算源句子与目标句子的相似度。

9、根据附记7所述的方法，其中计算源句子与目标句子的句翻译分值进一步包括利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。

10、根据附记8所述的方法，其中计算锚点词分值进一步包括利用锚点词在源句子中的出现次数、锚点词在目标句子中的出现次数以及锚点词在源句子和目标句子中同时出现的次数计算所述锚点词分值。

11、根据附记1所述的方法，其中对源句子和目标句子进行对齐的步骤，包括：

依据所述相似度，对源句子和目标句子进行1∶1类型的对齐；以及

依据所述相似度，对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐，所述n大于或等于2且小于或等于4。

12、一种对双语语料库进行句子对齐的装置，其中所述双语语料库中的源语言语料和目标语言语料是块对齐的，包括：

候选翻译对列表生成模块，用于针对源语言和目标语言的每个对齐块，利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表，所述候选翻译对列表中的每个条目为包括源和目标关键词对的翻译对；

双语词典生成模块，用于根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典，所述双语词典中的每个条目包括源和目标关键词对及其翻译概率；

双语词典扩展模块，用于以所述双语词典中的每个条目中的源和目标关键词对为种子翻译对，并参考所述种子翻译对的上下文内容对所述双语词典进行扩展；

目标语言翻译模块，用于基于扩展后的双语词典，将源块中的源句子翻译成目标语言；

相似度计算模块，用于计算翻译结果与目标块中的目标句子之间的相似度；以及

对齐模块，用于依据所述相似度对源句子和目标句子进行对齐。

13、根据附记12所述的装置，其中所述候选翻译对列表生成模块，包括：

词频/反文档频率值计算子模块，用于分别计算源块和目标块中各个词的词频/反文档频率值；

第一选取子模块，用于分别将源块和目标块中词频/反文档频率值大于预定阈值的词作为源关键词和目标关键词，以形成所述源关键词列表和所述目标关键词列表；

排序子模块，用于分别按照词频/反文档频率值的大小对源关键词列表和目标关键词列表进行排序；

第二选取子模块，用于依次针对所述源关键词列表中的每一个源关键词，以对应的目标关键词为中心选取预定数目的候选目标关键词，作为该源关键词的候选翻译；以及

第三选取子模块，用于针对目标关键词列表中的每一个目标关键词，以对应的源关键词为中心选取预定数目的候选源关键词，作为该目标关键词的候选翻译。

14、根据附记12所述的装置，其中所述候选翻译对列表生成模块包括：

查找子模块，用于针对每一个源句子，利用句子长度信息查找所述源句子对应的目标句子；

确定子模块，用于如果源句子与目标句子的比值在预定范围内，且源句子与目标句子的长度差符合预设条件，则确定所述目标句子与源句子互为译文；

获取子模块，用于针对属于所述源句子的源词和属于所述目标句子的目标词，获取在源句子中的出现次数与在目标句子中的出现次数相同的源词和目标词对；

判断子模块，用于判断所述源词和目标词对中的源词和目标词是否都不在停用词表中；以及

生成子模块，用于当所述判断子模块的结果为是时，依据所述源词和目标词对生成候选翻译对列表。

15、根据附记13或14所述的装置，还包括：

过滤模块，用于对所述候选翻译对列表中的翻译对进行过滤，具体为：对于源关键字sw的候选翻译集合{tw₁，tw₂，…，tw_n}中的每个候选翻译tw_i，只有sw也出现在所述tw_i的候选翻译集合中，且tw_i不在停用词列表中，才保留tw_i；或者，对于目标关键字tw的候选翻译集合{sw₁，sw₂，…，sw_n}中的每个候选翻译sw_i，只有tw也出现在所述sw_i的候选翻译集合中，且sw_i都不在停用词列表中，才保留sw_i。

16、根据附记12所述的装置，其中所述双语词典生成模块包括：

翻译概率计算子模块，用于通过以下公式计算所述候选翻译对列表中的每个翻译对的翻译概率：

Pt(sw_i，tw_j)＝log(P(sw_i|tw_j)×P(tw_j|sw_i))，其中，

翻译对选取子模块，用于选取所述翻译概率大于预设阈值的翻译对生成所述双语词典。

17、根据附记12所述的装置，其中所述目标语言翻译模块具体配置为：

以及，所述相似度计算模块，具体包括：

句翻译分值计算子模块，用于按照所述源关键词与所述候选翻译之间的翻译概率，计算源句子与目标句子的句翻译分值；

相似度计算子模块，用于依据所述句翻译分值计算源句子与目标句子的相似度。

18、根据附记17所述的装置，其中所述相似度计算模块还包括：

锚点词分值计算子模块，用于计算锚点词分值；

句子长度惩罚值计算子模块，用于根据源句子和目标句子的长度，计算句子长度惩罚值；以及

所述相似度计算子模块，具体用于依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值计算源句子与目标句子的相似度。

19、根据附记17所述的装置，其中所述句翻译分值计算子模块具体配置为：利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。

20、根据附记12所述的装置，其中所述对齐模块具体配置为：

第一对齐子模块，用于依据所述相似度，对源句子和目标句子进行1∶1类型的对齐；以及

第二对齐子模块，用于依据所述相似度，对尚未对齐的源句子和目标句子进行1∶n和n∶1类型的对齐，所述n大于或等于2且小于或等于4。

Claims

1.一种对双语语料库进行句子对齐的方法，其中所述双语语料库中的源语言语料和目标语言语料是块对齐的，所述方法包括：

依据所述相似度对源句子和目标句子进行对齐。

2.根据权利要求1所述的方法，还包括：

3.根据权利要求1所述的方法，其中所述根据所述候选翻译对列表中的每个翻译对的翻译概率生成双语词典的步骤，包括：

Pt(sw_i，tw_j)＝log(P(sw_i|tw_j)×P(tw_j|sw_i))，其中，

4.根据权利要求1所述的方法，其中，所述将源块中的源句子翻译成目标语言的步骤，具体包括：

计算锚点词分值；

根据源句子和目标句子的长度，计算句子长度惩罚值；以及

5.根据权利要求1所述的方法，其中计算源句子与目标句子的句翻译分值进一步包括：利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。

6.一种对双语语料库进行句子对齐的装置，其中所述双语语料库中的源语言语料和目标语言语料是块对齐的，包括：

7.根据权利要求6所述的装置，还包括：

8.根据权利要求6所述的装置，其中所述双语词典生成模块包括：

Pt(sw_i，tw_j)＝log(P(sw_i|tw_j)×P(tw_j|sw_i))，其中，

9.根据权利要求6所述的装置，其中所述目标语言翻译模块具体配置为：

以及，所述相似度计算模块，具体包括：

锚点词分值计算子模块，用于计算锚点词分值；

相似度计算子模块，用于依据所述句翻译分值、所述锚点词分值和所述句子长度惩罚值计算源句子与目标句子的相似度。

10.根据权利要求6所述的装置，所述句翻译分值计算子模块具体配置为：利用源关键词在源句子中的出现次数、目标关键词在目标句子中的出现次数以及源关键词和目标关键词的翻译概率计算所述句翻译分值。