CN104750687A

CN104750687A - 改进双语语料库的方法及装置、机器翻译方法及装置

Info

Publication number: CN104750687A
Application number: CN201310728270.XA
Authority: CN
Inventors: 苏韬; 张大鲲; 郝杰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2015-07-01
Anticipated expiration: 2033-12-25
Also published as: US10061768B2; CN104750687B; US20150186361A1

Abstract

本发明的实施方式提供了用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。根据本发明的一个方面，提供了一种用于改进双语语料库的装置，其中，上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息，上述装置包括：提取单元，其在给定的句对的词对齐信息中提取切分候选；计算单元，其计算上述切分候选的切分置信度；比较单元，其对上述切分置信度和预定的阈值进行比较；以及切分单元，其在上述切分置信度大于等于上述阈值的情况下，在上述切分候选处对上述给定的句对进行切分。

Description

改进双语语料库的方法及装置、机器翻译方法及装置

技术领域

本实施方式涉及自然语言的处理技术，具体地，涉及用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。

背景技术

一直以来，长句子的翻译是统计机器翻译（Statistical MachineTranslation(SMT)）中的一个难点问题。当句子过长时，SMT系统通常很难给出正确的翻译结果，甚至根本无法处理。

为了避免长句子的翻译困难，人们通常先将长句子切分为较短的子句，然后再进行处理。以往的研究结果表明，这是一种有效的处理方式，特别是对于句子结构相对简单的口语句子，即便只是简单地将切分后的子句的翻译结果顺序拼接，也往往会有较好的效果。

为了切分输入的长句子，首先需要解决的问题是确定合理的切分标准，即确定正确的切分位置。基于语料的SMT系统中包含用于训练数据模型的大规模平行双语语料，可以利用双语语料中的源语言端语料训练和学习切分位置。但是，语料中通常会存在一定数量的较长的双语句对，这些长句对会产生如下问题：首先，源语言端过长的句子无法提供充分的切分信息；其次，过长的双语句对容易引入更多的词对齐错误，而错误的词对齐会直接导致翻译质量的下降。

通常，标点符号可以提供有价值的切分信息，但直接利用标点符号或只是辅以简单的人工制定的规则，通常很难取得满意的效果。并且，由于不同语言间的语法体系差异，如果仅从单语的角度考虑断句可能会导致子句的翻译结果不再是相对独立的句子，或者语序发生变化。为此，需要从双语的角度出发对平行语料进行切分。

在获得合适的训练语料之后，另一个需要解决的问题是：如何将输入的长句子切分为多个子句。长句子的切分可以看作是一个序列标注问题，

即，对长句子词序列中每一个词进行标注，其标注值为一个给定的标注集内的某一个值，然后根据标注结果进行切分。

综上，为了提高统计机器翻译系统中长句子的翻译质量，需要解决如下两个问题：

（1）在训练阶段，如何切分平行的双语语料；

（2）在解码阶段，如何切分输入的长句子。

对于第一个问题“训练阶段对平行双语语料的切分”，以往的研究中曾利用“修正的IBM-1翻译模型”寻找双语句对中最优的切分点并将其切分为两部分；然后，对切分后的子句对递归使用该方法，直至每个新子句的长度小于预定的阈值。但是该切分方法较为复杂。

另外，在以往的研究中也曾利用自动词对齐结果进行双语句对的切分，其遵循一定的经验规则在断句的标点符号处寻找双语句子的最优切分点，根据最优切分点，将双语句对切分为两个短的子句对。然后，对上述得到的子句对递归地进行再次切分，直至没有切分点为止。该切分方法粗略的考虑了对齐错误的影响，其目的主要在于缩短句长以削减与句子对应的句法树结构的搜索空间，对于词对齐质量并无改进。

对于第二个问题“解码阶段对输入的长句子的切分”，常用的解决方法之一是利用基于隐含马尔科夫模型（HMM）的N-gram语言模型。例如，利用SRILM工具中集成的命令“hidden-ngram”，即利用N-gram模型，用词之间的隐含事件对词序列进行标注（这里，隐含事件指的是“边界”和“非边界”）。具体到长句子切分问题，就是对长句子中的每一个词进行句子边界标注，根据N-gram语言模型计算概率得分，找出最有可能的包含给定词序列和标注序列的组合，根据标注结果进行切分。

然而，HMM的一个最大的缺点是基于输出独立性的假设，导致其无法考虑到上下文信息。

发明内容

为了改善上述现有技术中在训练阶段存在的对双语语料切分方法复杂及对词对齐质量没有改进的问题，本发明提出了一种新的切分算法。该算法首次提出了一种可度量的切分置信度（SC）的概念，对每一个切分候选计算切分置信度，并与预定的阈值相比较，在超过阈值的候选处进行切分，将较长的双语句对同时切分为多个较短的子句对。

另外，为了改善上述现有技术中在解码阶段存在的在对长句子进行切分时没有考虑上下文信息的问题，本发明提出了采用条件随机场（CRF）模型结合句子相似度共同将长句子切分为较短的更易翻译和理解的相对独立的子句。CRF模型可以方便的引入更多的上下文特征，在解决如分词、命名体识别等序列标注问题中，相对于HMM显示出明显的优势。同时，可以利用句子相似度补充CRF模型的信息。

概括地，本发明的实施方式提供了用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。具体地，提供了以下技术方案。

[1]一种用于改进双语语料库的装置，其中，上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息，上述装置包括：

提取单元，其在给定的句对的词对齐信息中提取切分候选；

计算单元，其计算上述切分候选的切分置信度；

比较单元，其对上述切分置信度和预定的阈值进行比较；以及

切分单元，其在上述切分置信度大于等于上述阈值的情况下，在上述切分候选处对上述给定的句对进行切分。

本实施方式的用于改进双语语料库的装置，在选择切分位置时考虑了对应的翻译结果，切分后避免了部分长距离的词对齐错误，提高了词对齐质量，进而改进了翻译性能。同时，切分后的源语言端语料提供了更加充分的切分位置信息，可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。

[2]根据上述[1]所述的用于改进双语语料库的装置，其中，与上述切分候选对应的上述第一语种的词和上述第二语种的词为一一对齐。

[3]根据上述[1]或[2]所述的用于改进双语语料库的装置，其中，与上述切分候选对应的上述第一语种的词和上述第二语种的词为具有断句功能的词和/或符号。

[4]根据上述[1]～[3]之一所述的用于改进双语语料库的装置，其中，上述计算单元利用跨越上述切分候选的词对齐的数量和上述给定的句对的长度来计算上述切分置信度。

[5]根据上述[4]所述的用于改进双语语料库的装置，其中，上述计算单元利用下面的公式来计算上述切分置信度，

{sc}_{a_{j}} = 1 - \frac{{cross}_{a_{j}}}{sent_len}, sent_len = (m + l) / 2

其中，a_j为上述切分候选，SC_aj为上述切分置信度，cross_aj为跨越上述切分候选的词对齐的数量，sent_len为上述给定的句对的长度，m为上述给定的句对中上述第一语种的句子的长度，l为上述给定的句对中上述第二语种的句子的长度。

[6]根据上述[1]～[5]之一所述的用于改进双语语料库的装置，还包括：

对齐单元，其对上述切分单元切分后的子句对重新进行词对齐。

本实施方式的用于改进双语语料库的装置，对切分后的子句对重新进行词对齐。由于词对齐被限制在子句对之内，避免了原双语句对中可能出现的错误的长距离词对齐，因此有效的改进了词对齐质量，进而提高了翻译性能。

[7]一种机器翻译装置，包括：

切分单元，其利用条件随机场模型对待翻译句子进行切分，得到多个切分候选，每个切分候选具有一个切分概率；

相似度计算单元，其计算上述待翻译句子的与每个切分候选对应的句子相似度；

得分计算单元，其利用上述切分概率和上述句子相似度计算每个切分候选的得分，将得分最高的切分候选作为上述待翻译句子的切分结果；以及

翻译单元，其利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。

本实施方式的机器翻译装置，通过采用CRF模型结合句子相似度共同对长句子进行切分，不仅可以利用CRF模型引入更多的特征，而且可以利用句子相似度补充CRF模型的信息，从而可以准确地将长句子切分为较短的更易翻译和理解的相对独立的子句，提高了翻译性能。

[8]根据上述[7]所述的机器翻译装置，其中，上述双语语料库为利用上述[1]～[6]之一所述的用于改进双语语料库的装置进行了改进的双语语料库。

本实施方式的机器翻译装置，通过利用了基于进行了改进的双语语料库训练得到的翻译知识进行翻译，进一步提高了翻译性能

[9]根据上述[7]或[8]所述的机器翻译装置，其中，上述得分计算单元计算上述切分概率与上述子句相似度的加权平均值，作为上述得分。

[10]根据上述[7]～[9]之一所述的机器翻译装置，其中，上述相似度计算单元：

计算上述待翻译句子的每个子句相对于上述双语语料库中第一语种的句子的子句相似度；以及

以上述子句的长度与上述待翻译句子的长度的比值作为权重计算上述子句的子句相似度的加权平均值，作为上述句子相似度。

[11]一种用于改进双语语料库的方法，其中，上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息，上述方法包括以下步骤：

在给定的句对的词对齐信息中提取切分候选；

计算上述切分候选的切分置信度；

对上述切分置信度和预定的阈值进行比较；以及

在上述切分置信度大于等于上述阈值的情况下，在上述切分候选处对上述给定的句对进行切分。

本实施方式的用于改进双语语料库的方法，在选择切分位置时考虑了对应的翻译结果，切分后避免了部分长距离的词对齐错误，提高了词对齐质量，进而改进了翻译性能。同时，切分后的源语言端语料提供了更加充分的切分位置信息，可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。

[12]根据上述[11]所述的用于改进双语语料库的方法，其中，与上述切分候选对应的上述第一语种的词和上述第二语种的词为一一对齐。

[13]根据上述[11]或[12]所述的用于改进双语语料库的方法，其中，与上述切分候选对应的上述第一语种的词和上述第二语种的词为具有断句功能的词和/或符号。

[14]根据上述[11]～[13]之一所述的用于改进双语语料库的方法，其中，上述计算步骤包括以下步骤：

利用跨越上述切分候选的词对齐的数量和上述给定的句对的长度来计算上述切分置信度。

[15]根据上述[14]所述的用于改进双语语料库的方法，其中，上述计算步骤包括以下步骤：

利用下面的公式来计算上述切分置信度，

{sc}_{a_{j}} = 1 - \frac{{cross}_{a_{j}}}{sent_len}, sent_len = (m + l) / 2

[16]根据上述[11]～[15]之一所述的用于改进双语语料库的方法，还包括以下步骤：

对上述切分步骤切分后的子句对重新进行词对齐。

本实施方式的用于改进双语语料库的方法，对切分后的子句对重新进行词对齐。由于词对齐被限制在子句对之内，避免了原双语句对中可能出现的错误的长距离词对齐，因此有效的改进了词对齐质量，进而提高了翻译性能。

[17]一种机器翻译方法，包括以下步骤：

利用条件随机场模型对待翻译句子进行切分，得到多个切分候选，每个切分候选具有一个切分概率；

计算上述待翻译句子的与每个切分候选对应的句子相似度；

利用上述切分概率和上述句子相似度计算每个切分候选的得分，将得分最高的切分候选作为上述待翻译句子的切分结果；以及

利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。

本实施方式的机器翻译方法，通过采用CRF模型结合句子相似度共同对长句子进行切分，不仅可以利用CRF模型引入更多的特征，而且可以利用句子相似度补充CRF模型的信息，从而可以准确地将长句子切分为较短的更易翻译和理解的相对独立的子句，提高了翻译性能。

[18]根据上述[17]所述的机器翻译方法，其中，上述双语语料库为利用上述[11]～[16]之一所述的用于改进双语语料库的方法进行了改进的双语语料库。

本实施方式的机器翻译方法，通过利用了基于进行了改进的双语语料库训练得到的翻译知识进行翻译，进一步提高了翻译性能

[19]根据上述[17]或[18]所述的机器翻译方法，其中，上述计算得分的步骤包括以下步骤：

计算上述切分概率与上述子句相似度的加权平均值，作为上述得分。

[20]根据上述[17]～[19]之一所述的机器翻译方法，其中，上述计算句子相似度的步骤包括以下步骤：

附图说明

通过以下结合附图对本发明具体实施方式的说明，能够更好地了解本发明上述的特点、优点和目的。

图1是根据本发明的一个实施方式的用于改进双语语料库的方法的流程图。

图2是根据本发明的另一个实施方式的用于改进双语语料库的装置的方框图。

图3是根据本发明的另一个实施方式的机器翻译方法的流程图。

图4是根据本发明的另一个实施方式的机器翻译装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施方式进行详细的说明。

用于改进双语语料库的方法

本实施方式提供一种用于改进双语语料库的方法，其中，上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息，上述方法包括以下步骤：在给定的句对的词对齐信息中提取切分候选；计算上述切分候选的切分置信度；对上述切分置信度和预定的阈值进行比较；以及在上述切分置信度大于等于上述阈值的情况下，在上述切分候选处对上述给定的句对进行切分。

下面参照图1进行详细说明。图1是根据本实施方式的用于改进双语语料库的方法的流程图。

如图1所示，首先，在步骤S101，在需要进行改进的对齐双语语料库10中选择一个双语句对。本实施方式中，对齐双语语料库10包括多个第一语种（源语言）和第二语种（目标语言）的句对以及每个句对之间由自动词对齐工具给出的词对齐信息。对齐双语语料库10是利用本领域的技术人员公知的任何词对齐工具，例如GIZA++工具对双语语料进行对齐而获得的词对齐结果。双语语料库是本领域的技术人员公知的用于SMT系统的任何双语语料库。本实施方式对于对齐双语语料库10没有任何限制。

接着，在步骤S105，对于所选的双语句对，在其词对齐信息中提取切分候选。具体过程如下。

假设双语句对中的源语言句子为：目标语言句子为：m和l为自然数。

由GIZA++得到的双向词对齐结果：

a_j=<s_j,t_j>,s_j∈[0，1，...，m]，t_j∈[0，1，...，1]

在步骤S105中，提取可能的切分候选a_j=<s_j，t_j>。在本实施方式中，切分候选优选满足如下条件：

（1），为一一对齐，

（2），为具有断句功能的词和/或符号。

具有断句功能的符号优选为标点符号，标点符号优选但不限于：逗号、句号、分号、问号、感叹号等。

接着，在步骤S110，计算切分候选a_j＝<s_j，t_j>的切分置信度。优选，利用跨越切分候选a_j＝<s_j，t_j>的词对齐的数量和所选的双语句对的长度来计算上述切分置信度。

具体地，利用下面的公式（1）来计算上述切分置信度，

{sc}_{a_{j}} = 1 - \frac{{cross}_{a_{j}}}{sent_len}, sent_len = (m + l) / 2 - - - (1)

其中，a_j为切分候选，SC_aj为切分置信度，cross_aj为跨越切分候选的词对齐的数量，sent_len为所选的双语句对的长度，m为所选的双语句对中源语言的句子的长度，l为所选的双语句对中目标语言的句子的长度。

下面举一个具体的实例进行说明切分置信度的计算。

例如，对于如下的中英双语句对，GIZA++工具给出的双向词对齐结果如下图所示：

第一步：抽取可能的切分候选，即<6,5>；

第二步：利用公式（1）计算切分置信度

{sc}_{< 6,5 >} = 1 - \frac{1}{(15 + 12) / 2} =

0.926 .

接着，在步骤S115，判断切分置信度是否大于预先设定的阈值。在本实施方式中，阈值用于控制切分的数量及质量。根据经验，优选将阈值设定为0.9，即长度为十的子句内最多允许一个词跨越切分候选对齐到子句对以外的其他子句。应该理解，根据需要，阈值也可以设定为比0.9小，也可以设定为比0.9大。

在步骤S115，如果切分置信度小于阈值，则进行步骤S120，将切分候选丢弃，接着进行步骤S130。

相反，在步骤S115，如果切分置信度大于等于阈值，则进行步骤S125，分别在源语言句子的s_j位置及目标语言句子的t_j位置将双语句对进行切分。

对于上述实例，如果将阈值设为0.9，则由于切分置信度sc<6，5>大于0.9，因此判定在<6,5>处分别切分源语言及目标语言的句子，即原句对被切分为如下两个子句对：

我有一点不舒服。——i don’t feel well.

给我些药，好吗？——can I have some medicine?

接着，在步骤S130，判断是否对所有的切分候选都进行了处理。如果还有没有处理的切分候选，则返回到步骤S110，对没有处理的切分候选，计算其切分置信度。如果所有的切分候选都已处理，则进行步骤S135。

应该理解，步骤S125和步骤S130的先后顺序可以交换。也就是说，既可以如上进行各个步骤，也可以在选出所有的切分置信度大于等于阈值的切分候选之后再进行切分。

在步骤S135，判断是否对齐双语语料库10中的所有双语句对都被选择。如果还有未处理的双语句对，则返回步骤S101，继续进行处理。否则，进行步骤S140。

在步骤S140，对切分后的子句对进行词对齐。本实施方式中，可以利用GIZA++工具进行词对齐，也可以用本领域的技术人员公知的任何其他词对齐工具进行词对齐。

对于上述实例，对齐结果如下。

本实施方式的用于改进双语语料库的方法，通过对双语句对进行切分避免了部分长距离的词对齐错误，再对切分后的语料库重新进行词对齐。由于词对齐被限制在子句对之内，避免了原双语句对中可能出现的错误的长距离词对齐，因此有效的改进了词对齐质量，进而提高了翻译性能。同时，切分后的源语言端语料提供了更加充分的切分位置信息，可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。

用于改进双语语料库的装置

在同一发明构思下，图2是根据本发明的另一个实施方式的用于改进双语语料库的装置的方框图。下面就结合该图，对本实施方式进行描述。对于那些与前面实施方式相同的部分，适当省略其说明。

本实施方式提供一种用于改进双语语料库的装置，其中，上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息。上述装置包括：提取单元，其在给定的句对的词对齐信息中提取切分候选；计算单元，其计算上述切分候选的切分置信度；比较单元，其对上述切分置信度和预定的阈值进行比较；以及切分单元，其在上述切分置信度大于等于上述阈值的情况下，在上述切分候选处对上述给定的句对进行切分。

下面参照图2进行详细说明。如图2所示，本实施方式的用于改进双语语料库的装置200包括：选择单元201、提取单元205、计算单元210、比较单元215、切分单元220和对齐单元225。

选择单元201在需要进行改进的对齐双语语料库10中选择一个双语句对。本实施方式中，对齐双语语料库10包括多个第一语种（源语言）和第二语种（目标语言）的句对以及每个句对之间由自动词对齐工具给出的词对齐信息。对齐双语语料库10是利用本领域的技术人员公知的任何词对齐工具，例如GIZA++工具对双语语料进行对齐而获得的词对齐结果。双语语料库是本领域的技术人员公知的用于SMT系统的任何双语语料库。

本实施方式对于对齐双语语料库10没有任何限制。

提取单元205对于选择单元201所选的双语句对，在其词对齐信息中提取切分候选。具体过程如下。

由GIZA++得到的双向词对齐结果：a_j=<s_j,t_j>,s_j∈[0，1，...，m]，t_j∈[0，1，...，1]

提取单元205提取可能的切分候选a_j＝<s_j，t_j>。在本实施方式中，切分候选优选满足如下条件：

（1）为一一对齐，

（2）为具有断句功能的词和/或符号。

计算单元210计算切分候选a_j＝<s_j，t_j>的切分置信度，优选，利用跨越切分候选a_j＝<s_j，t_j>的词对齐的数量和所选的双语句对的长度来计算上述切分置信度。

具体地，计算单元210利用下面的公式（1）来计算上述切分置信度，

{sc}_{a_{j}} = 1 - \frac{{cross}_{a_{j}}}{sent_len}, sent_len = (m + l) / 2 - - - (1)

对于上述实例，计算单元210利用公式（1）计算得到切分置信度

{sc}_{< 6,5 >} = 1 - \frac{1}{(15 + 12) / 2} = 0.926 .

比较单元215判断切分置信度是否大于预先设定的阈值。在本实施方式中，阈值用于控制切分的数量及质量。根据经验，优选将阈值设定为0.9，即长度为十的子句内最多允许一个词跨越切分候选对齐到子句对以外的其他子句。应该理解，根据需要，阈值也可以设定为比0.9小，也可以设定为比0.9大。

如果切分置信度小于阈值，则将切分候选丢弃。

如果切分置信度大于等于阈值，则切分单元220分别在源语言句子的s_j位置及目标语言句子的t_j位置将双语句对进行切分。

切分单元220既可以在选出一个切分置信度大于等于阈值的切分候选后进行切分，也可以在选出所有的切分置信度大于等于阈值的切分候选之后进行切分。

对齐单元225对切分后的子句对进行词对齐。本实施方式中，可以利用GIZA++工具进行对齐，也可以用本领域的技术人员公知的任何其他对齐工具进行对齐。

本实施方式的用于改进双语语料库的装置200可以对对齐双语语料库10中的所有句对进行处理，从而得到改进的双语语料库20。

本实施方式的用于改进双语语料库的装置200，通过对双语句对进行切分避免了部分长距离的词对齐错误，再对切分后的子句对重新进行词对齐。由于词对齐被限制在子句对之内，避免了原双语句对中可能出现的错误的长距离词对齐，因此有效的改进了词对齐质量，进而提高了翻译性能。同时，切分后的源语言端语料提供了更加充分的切分位置信息，可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。

机器翻译方法

在同一发明构思下，图3是根据本发明的另一个实施方式的机器翻译方法的流程图。下面就结合该图，对本实施方式进行描述。对于那些与前面实施方式相同的部分，适当省略其说明。

本实施方式提供一种机器翻译方法，包括以下步骤：利用条件随机场模型对待翻译句子进行切分，得到多个切分候选，每个切分候选具有一个切分概率；计算上述待翻译句子的与每个切分候选对应的句子相似度；利用上述切分概率和上述句子相似度计算每个切分候选的得分，将得分最高的切分候选作为上述待翻译句子的切分结果；以及利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。

下面参照图3进行详细说明。如图3所示，在步骤S301，输入待翻译句子。本实施方式中，待翻译句子可以是任何语言的句子。

接着，在步骤S305，利用CRF模型30对待翻译句子进行切分，得到多个切分候选，每个切分候选具有一个切分概率。

CRF模型30为本领域的技术人员公知的任何CRF模型。具体地，CRF模型30可以利用开源的CRF++工具，在标注后的训练语料上，根据预先定义的特征模板训练得到。

对训练语料进行标注的标注集（B,I,E）具体定义为：

B：子句的起始词；

I：子句的中间词；

E：子句的末尾词。

例如：我/B有/I一点/I不/I舒/I服/I。/E

在步骤S305，首先对待翻译句子中的每个词进行标注，接着，根据标注结果，利用CRF模型30得到最优的N个切分候选，每个切分候选赋予一个切分概率。

接着，在步骤S310，计算待翻译句子的与每个切分候选对应的句子相似度。具体地，与每个切分候选对应，待翻译句子被切分为多个子句，首先计算每个子句相对于双语语料库中源语言句子的子句相似度，接着，以子句的长度与待翻译句子的长度的比值作为权重计算子句的子句相似度的加权平均值，作为待翻译句子的与该切分候选对应的句子相似度。

接着，在步骤S315，利用切分概率和句子相似度计算每个切分候选的得分，将得分最高的切分候选作为待翻译句子的切分结果。优选，将切分概率与子句相似度的加权平均值作为上述得分。

具体地，根据下面的公式(2)计算上述得分，以选取最优切分候选：

Score＝Prob^1-λ·Sim^λ，λ∈[0，1] (2)

其中：Prob为该切分候选的CRF模型切分概率；Sim为句子相似度，λ为权重。

接着，在步骤S320，利用基于双语语料库训练得到的翻译知识，例如翻译模型40和语言模型50对切分结果进行翻译。在本实施方式中，训练翻译知识的双语语料库可以是本领域的技术人员公知的任何双语语料库，也可以是基于上述实施方式的用于改进双语语料库的方法和装置进行了改进的双语语料库。训练得到的翻译模型40和语言模型50可以是本领域的技术人员公知的用于机器翻译的任何模型，本发明对此没有任何限制。

机器翻译装置

在同一发明构思下，图4是根据本发明的另一个实施方式的机器翻译装置的方框图。下面就结合该图，对本实施方式进行描述。对于那些与前面实施方式相同的部分，适当省略其说明。

本实施方式提供一种机器翻译装置，包括：切分单元，其利用条件随机场模型对待翻译句子进行切分，得到多个切分候选，每个切分候选具有一个切分概率；相似度计算单元，其计算上述待翻译句子的与每个切分候选对应的句子相似度；得分计算单元，其利用上述切分概率和上述句子相似度计算每个切分候选的得分，将得分最高的切分候选作为上述待翻译句子的切分结果；以及翻译单元，其利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。

下面参照图4进行详细说明。如图4所示，本实施方式的机器翻译装置400具备：输入单元401、切分单元405、相似度计算单元410、得分计算单元415和翻译单元420。

输入单元401输入待翻译句子。本实施方式中，待翻译句子可以是任何语言的句子。

切分单元405利用CRF模型30对待翻译句子进行切分，得到多个切分候选，每个切分候选具有一个切分概率。

对训练语料进行标注的标注集（B,I,E）

具体定义为：

B：子句的起始词；

I：子句的中间词；

E：子句的末尾词。

例如：我/B有/I一点/I不/I舒/I服/I。/E

切分单元405，首先对待翻译句子中的每个词进行标注，接着，根据标注结果，利用CRF模型30得到最优的N个切分候选，每个切分候选赋予一个切分概率。

相似度计算单元410计算待翻译句子的与每个切分候选对应的句子相似度。具体地，与每个切分候选对应，待翻译句子被切分为多个子句，首先计算每个子句相对于双语语料库中源语言句子的子句相似度，接着，以子句的长度与待翻译句子的长度的比值作为权重计算子句的子句相似度的加权平均值，作为待翻译句子的与该切分候选对应的句子相似度。

得分计算单元415，利用切分概率和句子相似度计算每个切分候选的得分，将得分最高的切分候选作为待翻译句子的切分结果。优选，将切分概率与子句相似度的加权平均值作为上述得分。

Score＝Prob^1-λ·Sim^λ，λ∈[0，1] (2)

翻译单元420，利用基于双语语料库训练得到的翻译知识，例如翻译模型40和语言模型50对切分结果进行翻译。在本实施方式中，训练翻译知识的双语语料库可以是本领域的技术人员公知的任何双语语料库，也可以是基于上述实施方式的用于改进双语语料库的方法和装置进行了改进的双语语料库。训练得到的翻译模型40和语言模型50可以是本领域的技术人员公知的用于机器翻译的任何模型，本发明对此没有任何限制。

本实施方式的机器翻译装置400，通过采用CRF模型结合句子相似度共同对长句子进行切分，不仅可以利用CRF模型引入更多的特征，而且可以利用句子相似度补充CRF模型的信息，从而可以准确地将长句子切分为较短的更易翻译和理解的相对独立的子句，提高了翻译性能。

本实施方式的机器翻译装置400，通过利用了基于进行了改进的双语语料库训练得到的翻译知识进行翻译，进一步提高了翻译性能

以上虽然通过一些示例性的实施方式详细地描述了本发明的用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置，但是以上这些实施方式并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施方式，本发明的范围仅由所附权利要求为准。

Claims

1.一种用于改进双语语料库的装置，其中，上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息，上述装置包括：

提取单元，其在给定的句对的词对齐信息中提取切分候选；

计算单元，其计算上述切分候选的切分置信度；

2.根据权利要求1所述的用于改进双语语料库的装置，其中，与上述切分候选对应的上述第一语种的词和上述第二语种的词，为一一对齐且为具有断句功能的词和/或符号。

3.根据权利要求1或2所述的用于改进双语语料库的装置，其中，上述计算单元利用下面的公式来计算上述切分置信度，

{sc}_{a_{j}} = 1 - \frac{{cross}_{a_{j}}}{sent_len}, sent_len = (m + l) / 2

4.根据权利要求1或2所述的用于改进双语语料库的装置，还包括：

5.一种机器翻译装置，包括：

6.根据权利要求5所述的机器翻译装置，其中，上述双语语料库为利用权利要求1-4所述的用于改进双语语料库的装置进行了改进的双语语料库。

7.根据权利要求5或6所述的机器翻译装置，其中，上述得分计算单元，计算上述切分概率与上述子句相似度的加权平均值，作为上述得分。

8.根据权利要求5或6所述的机器翻译装置，其中，上述相似度计算单元：

计算上述待翻译句子的每个子句相对于上述双语语料库中第一语种的句子的子句相似度；并且

9.一种用于改进双语语料库的方法，其中，上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息，上述方法包括以下步骤：

在给定的句对的词对齐信息中提取切分候选；

计算上述切分候选的切分置信度；

对上述切分置信度和预定的阈值进行比较；以及

10.一种机器翻译方法，包括以下步骤：

计算上述待翻译句子的与每个切分候选对应的句子相似度；