CN101763344A

CN101763344A - 训练基于短语的翻译模型的方法、机器翻译方法及其装置

Info

Publication number: CN101763344A
Application number: CN200810190509A
Authority: CN
Inventors: 胡晓光; 吴华; 王海峰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-12-25
Filing date: 2008-12-25
Publication date: 2010-06-30

Abstract

本发明提供了训练基于短语的翻译模型的方法、训练基于短语的翻译模型的装置、基于短语的机器翻译方法和基于短语的机器翻译装置。根据本发明的一个方面，提供了一种训练基于短语的翻译模型的方法，包括以下步骤：识别双语语料库中的例句对中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；将上述例句对中的识别出的上述命名实体替换为上述命名实体的类别；从替换后的上述例句对中抽取短语对；以及将抽取出的上述短语对加入上述基于短语的翻译模型。

Description

训练基于短语的翻译模型的方法、机器翻译方法及其装置

技术领域

本发明涉及信息处理技术，具体地涉及统计机器翻译技术，更具体地涉及通过使用命名实体知识来改进基于短语的统计机器翻译的质量的技术。

背景技术

机器翻译技术主要分为：基于规则的机器翻译和基于语料库的机器翻译。

在基于语料库的机器翻译中，主要的翻译资源来源于语料库。基于语料库的机器翻译又分为：基于实例的机器翻译和基于统计的机器翻译。对于基于统计的机器翻译，基于短语的统计机器翻译方法是目前最主要的自动翻译方法之一。

基于短语的统计机器翻译方法的基本翻译单元是短语，其所应用的翻译知识包括翻译模型和语言模型。翻译模型利用双语语料库中的平行双语语料获得，由平行双语语料中互为翻译的双语短语对及其互相翻译的概率组成。在此，短语的定义是由一个或多个连续的词组成的片段。语言模型利用目标语言的单语语料库获得，其用从目标语言的单语语料库中统计出来的概率来描述生成译文的流利程度。翻译的性能随着语料库的规模的增加而提高。

常规的基于短语的统计机器翻译的过程主要包括：首先，对于待翻译的句子，使用匹配方法搜索翻译模型，查找与该句子对应的、所有匹配的双语短语对；然后，基于这些双语短语对以及语言模型，采用统计方法选出该句子的目标语言译文片段的组合中得分最高的那一个，作为待翻译的句子的正确目标语言译文。

图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的方框图。如图1所示，该系统100主要包括输入单元101、查找单元102、译文生成单元103、输出单元104、翻译模型30以及语言模型40等。

在系统100中，输入单元101是该系统100与外部的接口，该系统100通过输入单元101从外部获得待翻译的句子。

查找单元102进行短语的匹配。具体地，查找单元102对通过输入单元101获得的待翻译的句子，使用匹配算法在通过使用双语语料库10统计分析获得的翻译模型30中查找与该输入句子对应的、匹配的双语短语对。

译文生成单元103生成该输入句子的正确目标语言译文。具体地，译文生成单元103基于查找单元102所查找的双语短语对以及通过使用单语语料库20统计分析获得的语言模型40，利用统计方法选出该输入句子的、可能的目标语言译文中得分最高的那一个，作为该输入句子的正确目标语言译文。

由译文生成单元103生成的该目标语言译文通过输出单元104输出。

图2示出了采用图1的上述系统进行的机器翻译示例。在该示例中，对于输入句子“美国总统布什4月将访问日本”，图1的系统100的查找单元102利用短语的匹配技术，在翻译模型30中找到与该输入句子对应的五个匹配的双语短语对：(P1)美国总统<＝>The US president；(P2)布什<＝>Bush；(P3)4月<＝>in April；(P4)将访问<＝>will visit；(P5)日本<＝>Japan。并且，根据这五个双语短语对，系统100的译文生成单元103使用语言模型40得到最终的译文“The US president will visit Japan inApril”。

从上面可以看出，在常规的基于短语的统计机器翻译系统中，对于待翻译的输入句子，只有双语短语对中的源语言短语和输入句子中的短语精确匹配时，该短语对才可以用于翻译。对于输入句子中的那些包含命名实体的短语，由于命名实体在语料库中出现的次数较少，通常很难直接匹配上，因此需要切分成多个比较短的短语才能匹配。如图2所示的示例中，输入句子中的“美国总统布什”由于没有作为一个整体在语料库中出现，需要进一步切分为“美国总统”和“布什”后才能用短语对匹配。此外，输入句子中的“4月将访问日本”由于没有作为一个整体在语料库中出现，需要进一步切分为“4月”、“将访问”和“日本”后才能用短语对匹配。

输入句子切分的短语越短，则由于缺少上下文，短语的歧义越多；同时，由于目标短语的数量越多，其排列出正确的译文的难度越大。此外，一些命名实体，例如人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词，因为其在语料库中出现的次数很少而很难用统计的方法翻译。

发明内容

本发明正是鉴于上述现有技术中的问题而提出的，其目的在于提供训练基于短语的翻译模型的方法、训练基于短语的翻译模型的装置、基于短语的机器翻译方法和基于短语的机器翻译装置，以便能够通过使用命名实体知识，将命名实体的翻译从统计机器翻译中分离出来，来改善统计机器翻译的质量。

本发明通过将命名实体替换为命名实体的类型，可以改善利用统计方法获得的词对齐质量，从而抽取出质量更高的双语短语对。因为带命名实体的类别的短语对能够匹配更长的短语，所以更容易排列出正确的译文。同时，命名实体的翻译可以使用额外的知识，使得对命名实体的翻译更加准确。最终，可以生成更好的译文。

根据本发明的一个方面，提供了一种训练基于短语的翻译模型的方法，包括以下步骤：识别双语语料库中的例句对中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；将上述例句对中的识别出的上述命名实体替换为上述命名实体的类别；从替换后的上述例句对中抽取短语对；以及将抽取出的上述短语对加入上述基于短语的翻译模型。

根据本发明的另一个方面，提供了一种训练基于短语的翻译模型的装置，包括：识别单元，其识别双语语料库中的例句对中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；替换单元，其将上述例句对中的上述识别单元识别出的上述命名实体替换为上述命名实体的类别；抽取单元，其从上述替换单元替换后的上述例句对中抽取短语对；以及添加单元，其将上述抽取单元抽取出的上述短语对加入上述基于短语的翻译模型。

根据本发明的另一个方面，提供了一种基于短语的机器翻译方法，包括以下步骤：识别待翻译的源语言的句子中的命名实体；将上述待翻译的源语言的句子中的识别出的上述命名实体替换为上述命名实体的类别；在基于短语的翻译模型中，查找与替换后的上述待翻译的源语言的句子相匹配的多个短语对；以及利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文。

根据本发明的另一个方面，提供了一种基于短语的机器翻译装置，包括：第一识别单元，其识别待翻译的源语言的句子中的命名实体；第一替换单元，其将上述待翻译的源语言的句子中的上述第一识别单元识别出的上述命名实体替换为上述命名实体的类别；查找单元，其在基于短语的翻译模型中，查找与上述第一替换单元替换后的上述待翻译的源语言的句子相匹配的多个短语对；以及译文生成单元，其利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1示出了常规的基于短语的统计机器翻译系统的方框图；

图2示出了采用图1的统计机器翻译系统进行机器翻译的一个实例；

图3是根据本发明的一个实施例的训练基于短语的翻译模型的方法的流程图；

图4示出了抽取短语对的详细过程的一个实例；

图5是根据本发明的另一个实施例的训练基于短语的翻译模型的装置的方框图；

图6是根据本发明的另一个实施例的基于短语的机器翻译方法的流程图；

图7示出了采用图6的基于短语的机器翻译方法进行机器翻译的一个实例；以及

图8是根据本发明的另一个实施例的基于短语的机器翻译装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

训练基于短语的翻译模型的方法

图3是根据本发明的一个实施例的训练基于短语的翻译模型的方法的流程图。下面就结合该图，对本实施例进行描述。

如图3所示，首先，在步骤301，利用命名实体识别技术识别双语语料库10中的例句对中的命名实体。在本实施例中，双语语料库10包括多对相对应的源语言和目标语言的例句，其可以是本领域的普通技术人员公知的任何双语语料库，例如英语-汉语语料库，英语-德语语料库，日语-汉语语料库等等。此外，本实施例的双语语料库可以是进行了对齐的双语语料库，也可以是未进行对齐的双语语料库，本发明对本实施例的双语语料库10没有任何限制。

在步骤301中，对于双语语料库10中的一对平行的双语语料，即一对相对应的源语言和目标语言的例句，利用本领域的技术人员公知的任何命名实体识别技术，对该例句对中的命名实体进行识别。

在本实施例中，可以使用本领域的技术人员公知的任何命名实体识别技术，有关命名实体识别技术的具体细节，可以参考以下文献，本发明对此没有任何限制。

1.Sun Jian，Ming Zhou和Jianfeng Gao的文献“Chinese named entityidentification using class-based language model”，2003，InternationalJournal of Computational Linguistics and Chinese Language(在下文中称为文献1)，在此通过参考引入其整个内容；

2.Borthwick，A.的博士论文“A maximum entropy approach tonamed entity recognition”，New York University，1999(在下文中称为文献2)，在此通过参考引入其整个内容；

3.Wu Y.，Zhao J.和Xu B.的文献“Chinese named entity recognitioncombining a statistical model with human knowledge”，In Proceedings ofthe ACL 2003Workshop on Multilingual and Mixed-language NamedEntity Recognition，Sapporo，Japan，2003，65-72(在下文中称为文献3)，在此通过参考引入其整个内容；以及

4.Jianfeng Gao，Mu Li，Andi Wu和Chang-Ning Huang的文献“Chinese Word Segmentation and Named Entity Recognition：A PragmaticApproach”，2005，Computational Linguistics，31(4)：531-574(在下文中称为文献4)，在此通过参考引入其整个内容。

接着，在步骤305，将上述例句对中的识别出的命名实体替换为该命名实体的类别。具体地，命名实体的类别包括人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议，可参考http://acl.ldc.upenn.edu/muc7/。

接着，在步骤310，从替换后的带有命名实体类别的例句对中抽取短语对。在本实施例中，可以使用本领域的技术人员公知的任何抽取短语对的方法，本发明对此没有任何限制，只要能从替换后的带有命名实体类别的例句对中抽取出短语对即可。

在本实施例中，如果上述双语语料库10为进行了对齐的双语语料库，其包括每对例句之间的对齐信息，则在步骤310，基于该对齐信息从替换后的带有命名实体类别的例句对中抽取短语对。

此外，如果上述双语语料库10为未进行对齐的双语语料库，则在步骤310抽取短语对之前，对上述例句对进行词对齐，然后从对齐后的带有命名实体类别的例句对中抽取短语对。在本实施例中，可以使用本领域的技术人员公知的任何词对齐方法对上述例句对进行词对齐，本发明对此没有任何限制。词对齐方法的具体细节例如可以参见：Brown，P.F.，Pietra，S.A.D.，Pietra，V.J.D.，and Mercer，R.L.，“The Mathematics ofStatistical Machine Translation：Parameter Estimation”，ComputationalLinguistics，1993，19(2)：263-313(在下文中称为文献5)，在此通过参考引入其整个内容。

下面参考图4详细描述抽取短语对的一个实例。图4示出了抽取短语对的详细过程的一个实例。

在图4中，假定英语为源语言，德语为目标语言，黑色方块表示对齐，则输入为：(<nr>did not slap；<nr>no daba；0-01-12-13-2)，其中<nr>指人名，即命名实体的类别为人名。

然后，可以用大的矩形方框来框住多个方块，每个矩形方框可以对应一个短语对。例如，图4(a)中的虚线方框对应的短语对为：<nr>did not<＝><nr>no。

在本实施例中，可以抽取作为互译短语对的条件为：

1.方框内必须有至少一块黑色的方块；以及

2.方框的上，下，左，右都没有黑色的方块。

根据以上条件，图4(a)中的虚线方框可抽取为互译短语对；图4(b)和4(c)中的虚线方框不能抽取为互译短语对，因为它们的下方有其它的黑色方块。

之所以要满足以上条件，是要求短语对中的源语言短语和目标语言短语必须是完整互译的。例如，在图4(a)中，将<nr>did not翻译为<nr>no是合适的。

然而，在图4(b)中，<nr>did不能翻译为<nr>no，因为缺少not。在图4(c)中，<nr>did not也不能翻译为<nr>no daba，因为多生成了daba。

所以，给定以上输入，可以抽取出来的所有短语对如下：

<nr>did not<＝><nr>no

<nr>did not slap<＝><nr>no daba

did not<＝>no

did not slap<＝>no daba

slap<＝>daba

应该理解，本发明并不限于图4所示的抽取方法，可以使用本领域的技术人员公知的任何抽取短语对的方法。

此外，可选地，在步骤310中从替换后的例句对中抽取出短语对之后，可以基于抽取出的短语对在双语语料库10中出现的次数计算短语对的翻译概率。此外，也可以利用本领域的技术人员公知的任何方法计算抽取出的短语对的翻译概率，本发明对此没有任何限制。

返回图3，接着，在步骤315，将在步骤310中抽取出的短语对加入基于短语的翻译模型50。此外，也可以将抽取出的短语对的翻译概率也加入基于短语的翻译模型50。

在本实施例中，可以对双语语料库10中的所有例句对进行训练，也可以对双语语料库10中的一部分例句对进行训练，将训练出的短语对加入基于短语的翻译模型50。此外，也可以给基于短语的翻译模型50的尺寸设定一个阈值，在基于短语的翻译模型50中的短语对的数量达到该阈值时，停止训练。此外，也可以在以后使用中对基于短语的翻译模型50进行完善。

通过本实施例的训练基于短语的翻译模型的方法，能够通过使用命名实体知识，将命名实体替换为命名实体的类型，可以改善利用统计方法获得的词对齐质量，抽取出质量更高的双语短语对，从而获得质量更高的基于短语的翻译模型。

此外，如果将使用本实施例的方法训练出的基于短语的翻译模型用于统计机器翻译，则因为带命名实体的类别的短语对能够匹配更长的短语，所以更容易排列出正确的译文。同时，命名实体的翻译可以使用额外的知识，使得对命名实体的翻译更加准确。最终，可以生成更好的译文。

训练基于短语的翻译模型的装置

在同一发明构思下，图5是根据本发明的另一个实施例的训练基于短语的翻译模型的装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图5所示，本实施例的训练基于短语的翻译模型的装置500包括：识别单元501，其识别双语语料库10中的例句对中的命名实体，上述双语语料库10包括多对相对应的源语言和目标语言的例句；替换单元505，其将上述例句对中的上述识别单元50l识别出的上述命名实体替换为上述命名实体的类别；抽取单元510，其从上述替换单元505替换后的上述例句对中抽取短语对；以及添加单元515，其将上述抽取单元抽取出的上述短语对加入上述基于短语的翻译模型50。

在本实施例中，识别单元501利用命名实体识别技术识别双语语料库10中的例句对中的命名实体。在本实施例中，双语语料库10包括多对相对应的源语言和目标语言的例句，其可以是本领域的普通技术人员公知的任何双语语料库，例如英语-汉语语料库，英语-德语语料库，日语-汉语语料库等等。此外，本实施例的双语语料库可以是进行了对齐的双语语料库，也可以是未进行对齐的双语语料库，本发明对本实施例的双语语料库10没有任何限制。

在本实施例中，识别单元501对于双语语料库10中的一对平行的双语语料，即一对相对应的源语言和目标语言的例句，利用本领域的技术人员公知的任何命名实体识别技术，对该例句对中的命名实体进行识别。

在本实施例中，可以使用本领域的技术人员公知的任何命名实体识别技术，有关命名实体识别技术的具体细节，可以参考上述文献1-4，本发明对此没有任何限制。

在本实施例中，替换单元505将上述例句对中的识别出的命名实体替换为该命名实体的类别。具体地，命名实体的类别包括人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议，可参考http://acl.ldc upenn.edu/muc7/。

在本实施例中，抽取单元510从替换单元505替换后的带有命名实体类别的例句对中抽取短语对。在本实施例中，抽取单元510可以使用本领域的技术人员公知的任何抽取短语对的方法，本发明对此没有任何限制，只要能从替换后的带有命名实体类别的例句对中抽取出短语对即可。

在本实施例中，如果上述双语语料库10为进行了对齐的双语语料库，其包括每对例句之间的对齐信息，则抽取单元510基于该对齐信息从替换后的带有命名实体类别的例句对中抽取短语对。

此外，如果上述双语语料库10为未进行对齐的双语语料库，则训练基于短语的翻译模型的装置500还可以包括对齐单元，其在抽取单元510抽取短语对之前，对上述例句对进行词对齐。在本实施例中，可以使用本领域的技术人员公知的任何词对齐方法对上述例句对进行词对齐，本发明对此没有任何限制。词对齐方法的具体细节例如可以参见上述文献5，在此通过参考引入其整个内容。

本实施例的抽取单元510抽取短语对的详细过程与上述参考图4详细描述的抽取过程类似，在此不再赘述。

应该理解，本发明的抽取单元510并不限于使用图4所示的抽取方法，可以使用本领域的技术人员公知的任何抽取短语对的方法。

此外，可选地，本实施例的训练基于短语的翻译模型的装置500还可以包括计算单元，其可以基于抽取单元510抽取出的短语对在双语语料库10中出现的次数计算短语对的翻译概率。此外，计算单元也可以利用本领域的技术人员公知的任何方法计算抽取出的短语对的翻译概率，本发明对此没有任何限制。

返回图5，在本实施例中，添加单元515将抽取单元510抽取出的短语对加入基于短语的翻译模型50。此外，也可以将计算单元计算出的短语对的翻译概率也加入基于短语的翻译模型50。

通过本实施例的训练基于短语的翻译模型的装置，能够通过使用命名实体知识，将命名实体替换为命名实体的类型，可以改善利用统计方法获得的词对齐质量，抽取出质量更高的双语短语对，从而获得质量更高的基于短语的翻译模型。

此外，如果将使用本实施例的装置500训练出的基于短语的翻译模型用于统计机器翻译，则因为带命名实体的类别的短语对能够匹配更长的短语，所以更容易排列出正确的译文。同时，命名实体的翻译可以使用额外的知识，使得对命名实体的翻译更加准确。最终，可以生成更好的译文。

基于短语的机器翻译方法

在同一发明构思下，图6是根据本发明的另一个实施例的基于短语的机器翻译方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图6所示，在步骤601，识别待翻译的源语言的句子中的命名实体。在本实施例中，可以使用本领域的技术人员公知的任何命名实体识别技术，有关命名实体识别技术的具体细节，可以参考上述文献1-4，本发明对此没有任何限制。

接着，在步骤605，将待翻译的源语言的句子中的识别出的命名实体替换为该命名实体的类别。具体地，命名实体的类别包括人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议，可参考http://acl.ldc.upenn.edu/muc7/。

接着，在步骤610，在基于短语的翻译模型中，查找与替换后的待翻译的源语言的句子相匹配的多个短语对。在此，优选，基于短语的翻译模型可以是利用上述参考图3描述的训练方法或参考图5描述的训练装置500训练得到的基于短语的翻译模型50。

在本实施例中，可以使用本领域的技术人员公知的任何匹配方法在基于短语的翻译模型中查找与待翻译的句子相匹配的短语对，本发明对此没有任何限制。匹配方法其实是一个根据给定源语言短语如何快速从翻译模型中找到对应的目标语言短语及其翻译概率的方法。可以有很多种不同的实现方式，最简单的方法可以使用顺序查找，复杂一点的方法可以使用二分查找，树，哈希等方法。通常，匹配方法会先对翻译模型以源语言短语为键值建立索引，可以使用前缀树索引。

匹配方法的具体细节例如可以参见：A.Apostolico and Z.Galil，editors.Pattern m atching algorith ms.Oxford University Press，1997(在下文中称为文献6)，在此通过参考引入其整个内容。

接着，在步骤615，利用在步骤610中查找出的多个短语对和上述命名实体的译文生成待翻译的源语言的句子的译文。在本实施例中，利用语言模型40和命名实体知识60生成待翻译的源语言的句子的译文。

在本实施例中，语言模型40是用来描述句子流利程度的模型，其可以从该语言的单语语料库训练得到。例如，对于给定的一个句子S，语言模型能够计算出该句子出现的概率P(S)。P(S)越大，则说明生成该句子的概率越大，即S是合法句子的可能性越大。也就是说，根据训练得到的模型，越容易生成句子S。

通常当前使用的语言模型基本是基于马尔科夫过程的条件概率模型，该模型假设出现下一个词的概率，只和前面的第(n-1)个词有关。

例如，在n＝2的时候，下一个词出现的概率只和前一个词有关P(wi|w0...wi-1)＝P(wi|wi-1)。

例如，对于句子“我喜欢吃苹果”出现的概率可以计算为：P(“我喜欢吃苹果”)＝P(我)＊P(喜欢|我)＊P(吃|喜欢)＊P(苹果|吃)

其中，等式右边的概率可以从语料库中训练得到，根据这些概率，可以判断出“我喜欢吃苹果”比“我喜欢吃篮球”更通顺，因为，语料库中不会出现“吃篮球”这种搭配，即P(篮球|吃)＝0。

有关语言模型的更多具体的细节可以参见：Stolcke Andreas于2002年发表的“SRILM-an extensible language modeling toolkit”，InProceedings of the International Conference on Spoken LanguageProcessing，volume 2，pages 901-904，Denver，CO.(在下文中称为文献7)，在此通过参考引入其整个内容。

在本实施例中，命名实体知识60可以包括规则和双语词典。对于时间、金钱、数字等规律性很强的命名实体，可以采用本领域的技术人员公知的任何规则进行翻译。对于人名、地名、组织机构名称、商品名称等命名实体，可以采用命名实体双语词典进行翻译。

此外，在本实施例中，命名实体知识60也可以通过以下方法训练获得。

首先，识别双语语料库中的例句对的源语言的例句中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；接着，抽取上述例句对的目标语言的例句中的与上述命名实体相对应的译文；最后，将上述命名实体和上述译文加入上述命名实体知识。

应该理解，本发明可以使用本领域的技术人员公知的任何命名实体知识，只要能够对待翻译的句子中的命名实体进行翻译即可，本发明对此没有任何限制。

在步骤615中，可以首先利用命名实体知识60将上述多个短语对的目标语言的短语中的上述命名实体的类别替换为上述命名实体的译文。然后，利用语言模型40，计算由替换后的上述目标语言的短语构成的句子的得分，其中，将得分最高的句子作为上述待翻译的源语言的句子的译文。

可选地，也可以首先利用基于命名实体的类别的语言模型，计算由上述多个短语对的目标语言的短语构成的句子的得分。然后，将计算出的得分最高的句子中的上述命名实体的类别替换为上述命名实体的译文，其中，将替换后的上述得分最高的句子作为上述待翻译的源语言的句子的译文。

下面参考图7对本实施例的基于短语的机器翻译方法进行详细描述。图7示出了采用图6的基于短语的机器翻译方法进行机器翻译的一个实例。

如图7所示，对于输入句子“美国总统布什4月将访问日本”，本实施例的机器翻译方法在步骤601首先识别其中的命名实体，从而识别出“美国”、“布什”、“4月”和“日本”分别为地名、人名、时间和地名。然后，在步骤605，将这些命名实体分别替换为其类别，即进行如下替换：美国--<ns>、布什--<nr>、4月--<nd>、日本--<ns>。从而得到替换后的句子为：“<ns>总统<nr><nd>将访问<ns>”。

然后，在步骤610，在基于短语的翻译模型50中查找与替换后的句子相匹配的短语对，结果得到如图7中的705所示的两个短语对：(P1)<ns>总统<nr><＝>The<ns>president<nr>；(P2)<nd>将访问<ns><＝>will visit<ns>in<nd>。

然后，利用语言模型40和命名实体知识60得到710所示的译文：The US president will visit Japan in April。

由此可见，通过使用本实施例的基于短语的机器翻译方法，可以将与待翻译的句子相匹配的短语对的数量从图2所示的现有技术的5个降低到2个，从而可以提高机器翻译的效率和准确率。

通过本实施例的基于短语的机器翻译方法，能够通过使用命名实体知识，将命名实体替换为命名实体的类型，可以改善利用统计方法获得的词对齐质量，抽取出质量更高的双语短语对，从而获得质量更高的基于短语的翻译模型。

此外，通过使用本实施例的基于短语的机器翻译方法，因为带命名实体的类别的短语对能够匹配更长的短语，所以更容易排列出正确的译文。同时，命名实体的翻译可以使用额外的知识，使得对命名实体的翻译更加准确。最终，可以生成更好的译文。

基于短语的机器翻译装置

在同一发明构思下，图8是根据本发明的另一个实施例的基于短语的机器翻译装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图8所示，本实施例的基于短语的机器翻译装置800，包括：第一识别单元801，其识别待翻译的源语言的句子中的命名实体；第一替换单元805，其将上述待翻译的源语言的句子中的上述第一识别单元801识别出的上述命名实体替换为上述命名实体的类别；查找单元810，其在基于短语的翻译模型中，查找与上述第一替换单元805替换后的上述待翻译的源语言的句子相匹配的多个短语对；以及译文生成单元815，其利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文。

在本实施例中，第一识别单元801识别待翻译的源语言的句子中的命名实体。在本实施例中，可以使用本领域的技术人员公知的任何命名实体识别技术，有关命名实体识别技术的具体细节，可以参考上述文献1-4，本发明对此没有任何限制。

替换单元805将待翻译的源语言的句子中的识别出的命名实体替换为该命名实体的类别。具体地，命名实体的类别包括人名、地名、组织机构名称、商品名称、时间、金钱、数字和其它专有名词。这个定义来自于MET-2会议，可参考http://acl.ldc.upenn.edu/muc7/。

查找单元810在基于短语的翻译模型中，查找与替换后的待翻译的源语言的句子相匹配的多个短语对。在此，优选，基于短语的翻译模型可以是利用上述参考图3描述的训练方法或参考图5描述的训练装置500训练得到的基于短语的翻译模型50。

在本实施例中，查找单元810可以使用本领域的技术人员公知的任何匹配方法在基于短语的翻译模型中查找与待翻译的句子相匹配的短语对，本发明对此没有任何限制。匹配方法其实是一个根据给定源语言短语如何快速从翻译模型中找到对应的目标语言短语及其翻译概率的方法。可以有很多种不同的实现方式，最简单的方法可以使用顺序查找，复杂一点的方法可以使用二分查找，树，哈希等方法。通常，匹配方法会先对翻译模型以源语言短语为键值建立索引，可以使用前缀树索引。匹配方法的具体细节例如可以参见上述文献6，在此通过参考引入其整个内容。

译文生成单元815利用在查找单元810查找出的多个短语对和上述命名实体的译文生成待翻译的源语言的句子的译文。在本实施例中，译文生成单元815利用语言模型40和命名实体知识60生成待翻译的源语言的句子的译文。

有关语言模型的更多具体的细节可以参见上述文献7，在此通过参考引入其整个内容。

在本实施例中，译文生成单元815包括：第二替换单元，其可以利用命名实体知识60将上述多个短语对的目标语言的短语中的上述命名实体的类别替换为上述命名实体的译文；以及计算单元，其利用语言模型40，计算由第二替换单元替换后的上述目标语言的短语构成的句子的得分，其中，将得分最高的句子作为上述待翻译的源语言的句子的译文。

可选地，译文生成单元815的计算单元也可以首先利用基于命名实体的类别的语言模型，计算由上述多个短语对的目标语言的短语构成的句子的得分。然后，译文生成单元815的第二替换单元将计算单元计算出的得分最高的句子中的上述命名实体的类别替换为上述命名实体的译文，其中，将替换后的上述得分最高的句子作为上述待翻译的源语言的句子的译文。

本实施例的基于短语的机器翻译装置800的翻译过程与上述参考图7详细描述的翻译过程类似，在此不再赘述。

通过本实施例的基于短语的机器翻译装置800，能够通过使用命名实体知识，将命名实体替换为命名实体的类型，可以改善利用统计方法获得的词对齐质量，抽取出质量更高的双语短语对，从而获得质量更高的基于短语的翻译模型。

此外，通过使用本实施例的基于短语的机器翻译装置800，因为带命名实体的类别的短语对能够匹配更长的短语，所以更容易排列出正确的译文。同时，命名实体的翻译可以使用额外的知识，使得对命名实体的翻译更加准确。最终，可以生成更好的译文。

以上虽然通过一些示例性的实施例对本发明的训练基于短语的翻译模型的方法、训练基于短语的翻译模型的装置、基于短语的机器翻译方法和基于短语的机器翻译装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种训练基于短语的翻译模型的方法，包括以下步骤：

识别双语语料库中的例句对中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；

将上述例句对中的识别出的上述命名实体替换为上述命名实体的类别；

从替换后的上述例句对中抽取短语对；以及

将抽取出的上述短语对加入上述基于短语的翻译模型。

2.根据权利要求1所述的训练基于短语的翻译模型的方法，还包括：

在上述从替换后的上述例句对中抽取短语对的步骤之后，计算上述短语对的翻译概率的步骤。

3.根据权利要求2所述的训练基于短语的翻译模型的方法，其中，基于上述短语对在上述双语语料库中出现的次数计算上述翻译概率。

4.根据权利要求2或3所述的训练基于短语的翻译模型的方法，其中，上述将抽取出的上述短语对加入上述基于短语的翻译模型的步骤包括将上述短语对和上述翻译概率加入上述基于短语的翻译模型。

5.根据权利要求1所述的训练基于短语的翻译模型的方法，其中，上述双语语料库包括进行了对齐的双语语料库，上述进行了对齐的双语语料库包括上述多对例句中每对例句之间的对齐信息。

6.根据权利要求5所述的训练基于短语的翻译模型的方法，其中，基于上述对齐信息进行上述从替换后的上述例句对中抽取短语对的步骤。

7.根据权利要求1所述的训练基于短语的翻译模型的方法，还包括：

在上述从替换后的上述例句对中抽取短语对的步骤之前，对上述例句对进行对齐的步骤。

8.根据权利要求1所述的训练基于短语的翻译模型的方法，其中，上述命名实体的类别包括：人名、地名、组织机构名称、商品名称、时间、金钱和数字中的至少一种。

9.一种训练基于短语的翻译模型的装置，包括：

识别单元，其识别双语语料库中的例句对中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；

替换单元，其将上述例句对中的上述识别单元识别出的上述命名实体替换为上述命名实体的类别；

抽取单元，其从上述替换单元替换后的上述例句对中抽取短语对；以及

添加单元，其将上述抽取单元抽取出的上述短语对加入上述基于短语的翻译模型。

10.根据权利要求9所述的训练基于短语的翻译模型的装置，还包括：

计算单元，其在上述抽取单元从上述替换单元替换后的上述例句对中抽取短语对之后，计算上述短语对的翻译概率。

11.根据权利要求10所述的训练基于短语的翻译模型的装置，其中，上述计算单元基于上述短语对在上述双语语料库中出现的次数计算上述翻译概率。

12.根据权利要求10或11所述的训练基于短语的翻译模型的装置，其中，上述添加单元将上述短语对和上述翻译概率加入上述基于短语的翻译模型。

13.根据权利要求9所述的训练基于短语的翻译模型的装置，其中，上述双语语料库包括进行了对齐的双语语料库，上述进行了对齐的双语语料库包括上述多对例句中每对例句之间的对齐信息。

14.根据权利要求13所述的训练基于短语的翻译模型的装置，其中，上述抽取单元基于上述对齐信息从上述替换单元替换后的上述例句对中抽取短语对。

15.根据权利要求9所述的训练基于短语的翻译模型的装置，还包括：

对齐单元，其在上述抽取单元从上述替换单元替换后的上述例句对中抽取短语对之前，对上述例句对进行对齐。

16.根据权利要求9所述的训练基于短语的翻译模型的装置，其中，上述命名实体的类别包括：人名、地名、组织机构名称、商品名称、时间、金钱和数字中的至少一种。

17.一种基于短语的机器翻译方法，包括以下步骤：

识别待翻译的源语言的句子中的命名实体；

将上述待翻译的源语言的句子中的识别出的上述命名实体替换为上述命名实体的类别；

在基于短语的翻译模型中，查找与替换后的上述待翻译的源语言的句子相匹配的多个短语对；以及

利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文。

18.根据权利要求17所述的基于短语的机器翻译方法，其中，上述基于短语的翻译模型包括利用根据权利要求1-8中任何一项所述的方法或者根据权利要求9-16中任何一项所述的装置训练得到的基于短语的翻译模型。

19.根据权利要求17所述的基于短语的机器翻译方法，其中，上述利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文的步骤包括以下步骤：

将上述多个短语对的目标语言的短语中的上述命名实体的类别替换为上述命名实体的译文；以及

利用语言模型，计算由替换后的上述目标语言的短语构成的句子的得分，其中，将得分最高的句子作为上述待翻译的源语言的句子的译文。

20.根据权利要求17所述的基于短语的机器翻译方法，其中，上述利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文的步骤包括以下步骤：

利用基于命名实体的类别的语言模型，计算由上述多个短语对的目标语言的短语构成的句子的得分；以及

将计算出的得分最高的句子中的上述命名实体的类别替换为上述命名实体的译文，其中，将替换后的上述得分最高的句子作为上述待翻译的源语言的句子的译文。

21.根据权利要求17-20中任何一项所述的基于短语的机器翻译方法，其中，上述利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文的步骤包括：

利用命名实体知识生成上述命名实体的译文的步骤。

22.根据权利要求21所述的基于短语的机器翻译方法，其中，上述命名实体知识通过以下步骤训练获得：

识别双语语料库中的例句对的源语言的例句中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；

抽取上述例句对的目标语言的例句中的与上述命名实体相对应的译文；以及

将上述命名实体和上述译文加入上述命名实体知识。

23.根据权利要求21所述的基于短语的机器翻译方法，其中，上述命名实体知识包括规则和双语词典。

24.一种基于短语的机器翻译装置，包括：

第一识别单元，其识别待翻译的源语言的句子中的命名实体；

第一替换单元，其将上述待翻译的源语言的句子中的上述第一识别单元识别出的上述命名实体替换为上述命名实体的类别；

查找单元，其在基于短语的翻译模型中，查找与上述第一替换单元替换后的上述待翻译的源语言的句子相匹配的多个短语对；以及

译文生成单元，其利用上述多个短语对和上述命名实体的译文生成上述待翻译的源语言的句子的译文。

25.根据权利要求24所述的基于短语的机器翻译装置，其中，上述基于短语的翻译模型包括利用根据权利要求1-8中任何一项所述的方法或者根据权利要求9-16中任何一项所述的装置训练得到的基于短语的翻译模型。

26.根据权利要求24所述的基于短语的机器翻译装置，其中，上述译文生成单元包括：

第二替换单元，其将上述多个短语对的目标语言的短语中的上述命名实体的类别替换为上述命名实体的译文；以及

计算单元，其利用语言模型，计算由上述第二替换单元替换后的上述目标语言的短语构成的句子的得分，其中，将得分最高的句子作为上述待翻译的源语言的句子的译文。

27.根据权利要求24所述的基于短语的机器翻译方法，其中，上述译文生成单元包括：

计算单元，其利用基于命名实体的类别的语言模型，计算由上述多个短语对的目标语言的短语构成的句子的得分；

第二替换单元，其将上述计算单元计算出的得分最高的句子中的上述命名实体的类别替换为上述命名实体的译文，其中，将上述第二替换单元替换后的上述得分最高的句子作为上述待翻译的源语言的句子的译文。

28.根据权利要求24-27中任何一项所述的基于短语的机器翻译装置，其中，上述译文生成单元还用于：

利用命名实体知识生成上述命名实体的译文。

29.根据权利要求28所述的基于短语的机器翻译装置，其中，上述命名实体知识通过以下单元训练获得：

第二识别单元，其识别双语语料库中的例句对的源语言的例句中的命名实体，上述双语语料库包括多对相对应的源语言和目标语言的例句；

抽取单元，其抽取上述例句对的目标语言的例句中的与上述命名实体相对应的译文；以及

添加单元，其将上述命名实体和上述译文加入上述命名实体知识。

30.根据权利要求28所述的基于短语的机器翻译装置，其中，上述命名实体知识包括规则和双语词典。