CN101667176A

CN101667176A - 基于短语的统计机器翻译方法和系统

Info

Publication number: CN101667176A
Application number: CN200810214667A
Authority: CN
Inventors: 刘占一; 王海峰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-01
Filing date: 2008-09-01
Publication date: 2010-03-10
Also published as: US20100057438A1; JP2010061645A

Abstract

本发明提供一种基于短语的统计机器翻译方法和系统。该方法包括：在预先设定的短语表中，为输入句子中的短语进行模糊匹配。在本发明中，通过对短语进行模糊匹配，能够为输入句子中较长的短语生成高质量的译文，从而相对于基于短语的精确匹配的机器翻译系统来说，能够有效地提高译文质量。

Description

基于短语的统计机器翻译方法和系统

技术领域

本发明涉及信息处理技术，具体地，涉及基于短语的统计机器翻译方法和系统。

背景技术

机器翻译技术主要分为：基于规则的机器翻译、基于语料库的机器翻译。

在基于语料库的机器翻译中，主要的翻译资源来源于语料库。基于语料库的机器翻译又分为：基于实例的机器翻译、基于统计的机器翻译。在基于统计的机器翻译中，基于短语的统计机器翻译方法是目前最主要的自动翻译方法之一。

基于短语的统计机器翻译方法的基本翻译单元是短语，且所应用的翻译知识是从语料库中的平行双语语料获得的短语表和语言模型，短语表由平行双语语料中互为翻译的双语短语对组成。在此，短语的定义是连续的词片段。

常规的基于短语的统计机器翻译的过程主要包括：首先，对于待翻译的输入句子，使用精确匹配方法搜索短语表，找到与该输入句子对应的、所有完全匹配的双语短语对；然后，基于这些双语短语对以及语言模型，采用统计思想选出该输入句子的目标语言译文片段的组合中得分最高的那一个，作为输入句子的正确目标语言译文。

图1示出了实现上述过程的常规的基于短语的统计机器翻译系统的方框图。如图1所示，该系统10主要包括输入单元11、查找单元12、译文生成单元13、输出单元14、短语表存储单元15以及语言模型存储单元16等。

其中，输入单元11是该系统10与外部的接口，该系统10通过输入单元11从外部获得待翻译的输入句子。

查找单元12进行短语的精确匹配。具体地，其对通过输入单元11获得的待翻译的输入句子，使用精确匹配算法在短语表存储单元15所存储的短语表中查找与该输入句子对应的、完全匹配的双语短语对。

并且，译文生成单元13生成输入句子的正确目标语言译文。具体地，其基于查找单元12所查找的双语短语对以及语言模型存储单元16中所存储的语言模型，利用统计模型选出该输入句子的、可能的目标语言译文中得分最高的那一个，作为该输入句子的正确目标语言译文。

由译文生成单元13生成的该目标语言译文通过输出单元14输出。

图2示出了采用图1的上述系统进行的机器翻译示例。在该示例中，对于输入句子“我觉得她那故事的结尾很激动人心”，图1的系统利用短语的精确匹配技术，在短语表中找到与该输入句子对应的、四个完全匹配的双语短语对：(P1)我觉得<->I found；(P2)她<->her；(P3)那故事的结尾<->the end of the story；(P4)很激动人心<->very exciting。并且，根据这四个双语短语对，系统使用统计模型得到最终的译文“I found her the end ofthe story very exciting”。

从上面可以看出，在常规的基于短语的统计机器翻译系统中，对于待翻译的输入句子，使用精确匹配方法在短语表中搜索完全匹配的双语短语对来得到输入句子的译文。精确匹配方法要求两个待匹配的短语必须完全一致。但是，通常情况下，预先建立的语料库中的平行双语语料都是非常有限的，可能不会覆盖较长的短语。这样，对于待翻译的输入句子中较长的短语，精确匹配方法很难在短语表中找到完全匹配的双语短语对。这样，在翻译过程中，只能将较长的短语切分成几个较短的短语来一一进行匹配。但是，由于较长的短语相对于较短的短语来说包含有更多的上下文信息，所以对于输入句子利用较短的短语的匹配所得到的目标语言译文通常劣于利用较长的短语的匹配所得到的目标语言译文。

发明内容

本发明正是鉴于上述现有技术中的问题而提出的，其目的在于提供一种基于短语的统计机器翻译方法和系统，以便能够通过短语的模糊匹配，为输入句子中较长的短语生成高质量的译文，从而基于较长的短语来进行输入句子的翻译，来有效地提高机器翻译系统的译文质量。

根据本发明的一个方面，提供一种基于短语的统计机器翻译方法，包括：在预先设定的短语表中，为输入句子中的短语进行模糊匹配。

根据本发明的另一个方面，提供一种基于短语的统计机器翻译系统，包括：短语模糊匹配单元，用于在预先设定的短语表中，为输入句子中的短语进行模糊匹配。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是常规的基于短语的统计机器翻译系统的方框图；

图2示出了采用图1的系统的机器翻译示例；

图3是根据本发明实施例的基于短语的统计机器翻译方法的流程图；

图4是根据本发明一个实施例的、图3的方法中短语的模糊匹配过程的详细流程图；

图5示出了采用图3、4的方法的机器翻译示例；

图6是根据本发明实施例的基于短语的统计机器翻译系统的方框图；以及

图7是根据本发明一个实施例的、图6的系统中短语模糊匹配单元的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细说明。

图3是根据本发明实施例的基于短语的统计机器翻译方法的流程图。

如图3所示，首先在步骤305，获得待翻译的输入句子。

在步骤310，进行短语的模糊匹配。

具体地，在该步骤中，对于上述输入句子，使用短语的模糊匹配方法在预先设定的短语表中为该输入句子中的各短语查找相同的或最相似的双语短语对，进而修改最相似的双语短语对，从而得到各短语的正确译文。

在步骤315，生成输入句子的目标语言译文。

具体地，基于在步骤310获得的双语短语对以及预先设定的语言模型，利用统计模型选出上述输入句子的、可能的目标语言译文中得分最高的那一个，作为该输入句子的正确目标语言译文。

在步骤320，输出所生成的上述目标语言译文。

下面详细描述上面的步骤310的过程。图4是根据本发明一个实施例的、该步骤310的短语的模糊匹配过程的详细流程图。图5是采用图3、4的方法进行的机器翻译示例。

在本实施例中，短语的模糊匹配的过程是根据基于实例的机器翻译(Example-Based Machine Translation，EBMT)思想来实现的。基于实例的机器翻译方法的主要过程是：首先，搜索例句库，查找与输入句子相似的例句；然后，识别出相似例句与输入句子之间的不同之处；最后，根据翻译模型消除相似例句中的不同，从而生成输入句子的译文。关于基于实例的机器翻译方法的详细信息，可以参考Harold Somers在1999年发表的“Review Article：Example-based Machine Translation”，MachineTranslation，14(2)：113-157。

如图4所示，本实施例的短语的模糊匹配过程首先在步骤405，为上述输入句子中的各短语，从预先设定的短语表中查找相同的或最相似的双语短语对。

例如，参照图5，假设输入句子仍是“我觉得她那故事的结尾很激动人心”，则在为该输入句子中的各短语从短语表中查找相同的或最相似的双语短语对的过程中，对于短语“我觉得”，找到了完全匹配的双语短语对“(P1)我觉得<->I found”；对于短语“她那故事的结尾”，找到了最相似的双语短语对“(S3)那故事的结尾<->the end of the story”；对于短语“很激动人心”，找到了完全匹配的双语短语对“(P4)很激动人心<->veryexciting”。

其中，对于上述“她那故事的结尾”这样在短语表中没有完全匹配的双语短语对的较长的短语，查找其最相似的双语短语对的过程是：首先，从短语表中找出包含与该短语中相同的词汇最多的多个相似的候选双语短语对；然后，依次计算这多个相似的候选双语短语对与该短语之间的编辑距离，其中编辑距离是从相似的候选双语短语对中的源语言短语转换到该短语所需要的插入、删除和替换操作的数目；最后，选出与该短语之间的编辑距离最小的那一个相似的候选双语短语对，作为该短语的最相似的双语短语对。

例如，参照图5，对于短语“她那故事的结尾”，在短语表中找到了多个相似的候选双语短语对“(S1)故事的情节<->the plot ofthe story”、“(S2)电影的结尾<->the end of the film”和“(S3)那故事的结尾<->the end of thestory”。

在此情况下，对于上述候选双语短语对(S1)、(S2)和(S3)，分别计算其与上述短语“她那故事的结尾”之间的编辑距离，从而得到：(S1)与该短语之间的编辑距离是2，即需要在(S1)的源语言短语中进行“她那”的插入以及“情节”与“结尾”的替换两项操作；(S2)与该短语之间的编辑距离也是2，即需要在(S2)的源语言短语中进行“她那”的插入以及“电影”与“故事”的替换两项操作；(S3)与该短语之间的编辑距离是1，即仅需要在(S3)的源语言短语中进行“她”的插入一项操作。

从而，可以得到与该短语“她那故事的结尾”之间的编辑距离最小的双语短语对“(S3)那故事的结尾<->the end of the story”，作为该短语的最相似的双语短语对。

在步骤410，对于上述输入句子中未查找到完全匹配的双语短语对、而是查找到最相似的双语短语对的短语的每一个，识别出为其查找到的最相似的双语短语对与该短语之间的差异。也就是说，识别出该最相似的双语短语对中的源语言短语与该短语之间不同的词汇。

具体地，在本步骤中，可以根据具体情况采用以下方法中的一种来判断上述最相似的双语短语对中的源语言短语与该短语中的词汇是否相同：

1)直接原样比较上述最相似的双语短语对中的源语言短语与上述短语之间的各词汇是否一致。

2)如果上述短语是英文，则比较上述最相似的双语短语对中的源语言短语与该短语之间的各词汇的原形是否一致。

3)利用同义词词典，检查上述最相似的双语短语对中的源语言短语与上述短语之间的不同的词汇是否表达了相同的意思。

例如，如果图5的示例中为上述短语“她那故事的结尾”找到的最相似的双语短语对是“那小说的结尾<->the end of the novel”，则虽然从字面来看其中的“小说”与该较长的短语中的“故事”是不同的词汇，但如果同义词词典中定义“小说”与“故事”属于同义词，则它们就表达了相同的意思，这样，可以认为“小说”和“故事”属于意思相同的词汇，而不认为它们是不同的部分。

4)利用翻译词典，检查上述最相似的双语短语对中的源语言短语与上述短语之间的不同的词汇是否表达了相同的意思。

同样，如果图5的示例中为上述短语“她那故事的结尾”找到的最相似的双语短语对是“那小说的结尾<->the end of the novel”，则如果能够在翻译词典中查找到“故事”可以翻译为“story”或“novel”，“小说”可以翻译为“novel”，则可以认为“小说”和“故事”属于意思相同的词汇，而不认为它们是不同的部分。

在步骤415，对于上述输入句子中未查找到完全匹配的双语短语对、而是查找到最相似的双语短语对的短语的每一个，修改其最相似的双语短语对中与该短语之间的差异，以得到该短语的目标语言译文。

也就是说，修改该最相似的双语短语对中与该短语之间不同的词汇。具体地，首先修改该最相似的双语短语对中的源语言短语中与该短语意思不同的词汇，使得修改后的该源语言短语与该短语一致，然后修改该最相似的双语短语对中的目标语言短语中的相应词汇，从而得到该短语的目标语言译文。

例如，对于图5的示例中为短语“她那故事的结尾”找到的最相似的双语短语对“(S3)那故事的结尾<->the end of the story”而言，由于其与该短语之间的不同部分是缺少词汇“她”，所以首先在(S3)的源语言短语中的“那”之前插入“她”，使得修改后的该源语言短语与上述短语一致，然后通过查找词典得到“她->her”，并以此根据源语言短语修改(S3)的目标语言短语中的相应词汇，即用“her”替换目标语言短语中的第二个“the”，从而得到上述短语的正确目标语言译文“the end of her story”。

从而，参照图5，对于输入句子“我觉得她那故事的结尾很激动人心”，根据通过短语的模糊匹配所获得的各双语短语对：(P1)我觉得<->I found；(P5)“她那故事的结尾”<->the end of her story；(P4)很激动人心<->veryexciting，使用统计模型能够得到该输入句子的得分最高的最终目标语言译文“I found the end of her story very exciting”。

以上就是对本实施例的基于短语的统计机器翻译方法的详细描述。在本实施例中，通过对短语进行模糊匹配，能够为输入句子中较长的短语生成高质量的译文，从而能够基于较长的短语来实现输入句子的翻译，相对于基于短语的精确匹配的翻译系统来说，能够有效地提高译文质量。并且，比较图2的示例中基于短语的精确匹配而得到的译文与图5中根据本实施例基于短语的模糊匹配而得到的译文也可以看出，基于短语的模糊匹配而得到的译文明显好于基于短语的精确匹配而得到的译文。

此外，需要说明的是，虽然在图4的过程中利用基于实例的机器翻译方法来实现图3的步骤310的短语的模糊匹配过程，但是，并不限于此，在其他实施例中，可以采用任何现在已知或将来可知的翻译思想来实现短语的模糊匹配。

此外，还需要说明的是，虽然在图4的过程中所说明的是为输入句子中在短语表中没有完全匹配的双语短语对的短语，从多个相似的候选双语短语对中选出一个编辑距离最小的最相似的双语短语对，并根据该最相似的双语短语对得到该短语的目标语言译文的情况，但是，这仅是示例性的，在实际实现中，可以是为该短语从多个相似的候选双语短语对中选出前N(大于等于2)个编辑距离较小的相似双语短语对，并在根据编辑距离最小的最相似的双语短语对不能获得该短语的正确译文时，向下使用次相似的双语短语对，等等。

在同一发明构思下，本发明提供一种基于短语的统计机器翻译系统。下面结合附图对其进行描述。

图6是根据本发明实施例的基于短语的统计机器翻译系统的方框图。如图6所示，本实施例的基于短语的统计机器翻译系统60包括：输入单元61、短语模糊匹配单元62、译文生成单元63、输出单元64、短语表存储单元65以及语言模型存储单元66。

输入单元61是该系统60与外部的接口，该系统60通过输入单元61从外部获得待翻译的输入句子。

短语模糊匹配单元62在预先设定的、存储在短语表存储单元65中的短语表中，为上述输入句子中的短语进行模糊匹配，以找到各短语的目标语言译文。

译文生成单元63根据短语模糊匹配单元62的匹配结果以及预先设定的、存储在语言模型存储单元66中的语言模型，利用统计模型选出该输入句子的、可能的目标语言译文中得分最高的那一个，作为该输入句子的正确目标语言译文。

并且，由译文生成单元63生成的该目标语言译文通过输出单元64输出。

下面详细描述上述短语模糊匹配单元62。图7是根据本发明一个实施例的上述短语模糊匹配单元的方框图。本实施例的短语模糊匹配单元62是根据基于实例的机器翻译方法实现的。

具体地，如图7所示，本实施例的短语模糊匹配单元62包括：相同/相似双语短语查找单元621、差异识别单元622以及修改单元623。

相同/相似双语短语查找单元621为上述输入句子中的各短语，从短语表存储单元65所存储的短语表中查找相同的或最相似的双语短语对。

具体地，相同/相似双语短语查找单元621对于上述输入句子中的各短语：从上述短语表中为该短语找出包含与该短语中相同的词汇最多的多个相似的候选双语短语对；依次计算这多个相似的候选双语短语对与上述短语之间的编辑距离，其中该编辑距离是从相似的候选双语短语对中的源语言短语转换到该短语所需要的插入、删除和替换操作的数目；以及从上述多个相似的候选双语短语对中选出与上述短语之间的编辑距离最小的那一个，作为该短语的最相似的双语短语对。

差异识别单元622对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，识别出其最相似的双语短语对与该短语之间的差异。也就是说，识别出该最相似的双语短语对中的源语言短语与该短语之间意思不同的词汇。

具体地，差异识别单元622对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，直接地或利用同义词词典/翻译词典，识别出其最相似的双语短语对中的源语言短语与该短语之间意思不同的词汇。

修改单元623对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，修改其最相似的双语短语对中与该短语之间的差异，以得到该短语的目标语言译文。

具体地，修改单元623对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，修改其最相似的双语短语对中的源语言短语中与上述短语意思不同的词汇，使得修改后的该源语言短语与该短语一致；然后根据修改后的源语言短语，修改该最相似的双语短语对中的目标语言短语中的相应词汇。

需要说明的是，虽然在本实施例中根据基于实例的机器翻译方法来实现短语模糊匹配单元62，但是，并不限于此，在其他实施例中，可以采用任何现在已知或将来可知的翻译思想来实现该短语模糊匹配单元。

以上就是对本实施例的基于短语的统计机器翻译系统的详细描述。

本实施例的基于短语的统计机器翻译系统60及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。

以上虽然通过一些示例性的实施例对本发明的基于短语的统计机器翻译方法和系统进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅以所附权利要求为准。

Claims

1.一种基于短语的统计机器翻译方法，包括：

在预先设定的短语表中，为输入句子中的短语进行模糊匹配。

2.根据权利要求1所述的方法，其中上述在预先设定的短语表中，为输入句子中的短语进行模糊匹配的步骤进一步包括：

在上述短语表中，利用基于实例的机器翻译方法，为上述输入句子中的短语进行模糊匹配。

3.根据权利要求1或2所述的方法，其中上述在预先设定的短语表中，为输入句子中的短语进行模糊匹配的步骤进一步包括：

为上述输入句子中的各短语，从上述短语表中查找相同的或最相似的双语短语对；

对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，识别出其最相似的双语短语对与该短语之间的差异；以及

对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，修改其最相似的双语短语对中与该短语之间的差异，以得到该短语的目标语言译文。

4.根据权利要求3所述的方法，其中为上述输入句子中的各短语，从上述短语表中查找相同的或最相似的双语短语对的步骤进一步包括：

对于上述输入句子的短语中未被查找到相同的双语短语对的短语的每一个：

从上述短语表中为该短语找出多个相似的候选双语短语对；

依次计算上述多个相似的候选双语短语对与该短语之间的编辑距离，其中该编辑距离是从相似的候选双语短语对中的源语言短语转换到该短语所需要的插入、删除和替换操作的数目；以及

从上述多个相似的候选双语短语对中选出与上述短语之间的编辑距离最小的相似的候选双语短语对，作为该短语的最相似的双语短语对。

5.根据权利要求3所述的方法，其中对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，识别出其最相似的双语短语对与该短语之间的差异的步骤进一步包括：

直接地或利用同义词词典/翻译词典，识别出该最相似的双语短语对中的源语言短语与该短语之间意思不同的词汇。

6.根据权利要求5所述的方法，其中对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，修改其最相似的双语短语对中与该短语之间的差异的步骤进一步包括：

修改该最相似的双语短语对中的源语言短语中与上述短语之间意思不同的词汇，使得修改后的该源语言短语与该短语一致；以及

根据上述修改后的源语言短语，修改上述最相似的双语短语对中的目标语言短语中的相应词汇。

7.根据权利要求1所述的方法，还包括：

根据上述输入句子中的短语的模糊匹配的结果以及预先设定的语言模型，利用统计模型获得该输入句子的、得分最高的目标语言译文。

8.一种基于短语的统计机器翻译系统，包括：

短语模糊匹配单元，用于在预先设定的短语表中，为输入句子中的短语进行模糊匹配。

9.根据权利要求8所述的系统，其中上述短语模糊匹配单元是根据基于实例的机器翻译方法实现的。

10.根据权利要求8或9所述的系统，其中上述短语模糊匹配单元进一步包括：

相同/相似双语短语查找单元，用于为上述输入句子中的各短语，从上述短语表中查找相同的或最相似的双语短语对；

差异识别单元，用于对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，识别出其最相似的双语短语对与该短语之间的差异；以及

修改单元，用于对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，修改其最相似的双语短语对中与该短语之间的差异，以得到该短语的目标语言译文。

11.根据权利要求10所述的系统，其中上述相同/相似双语短语查找单元对于上述输入句子的短语中未被查找到相同的双语短语对的短语的每一个：

从上述短语表中为该短语找出多个相似的候选双语短语对；

12.根据权利要求10所述的系统，其中上述差异识别单元对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，直接地或利用同义词词典/翻译词典，识别出其最相似的双语短语对中的源语言短语与该短语之间意思不同的词汇。

13.根据权利要求12所述的系统，其中上述修改单元对于上述输入句子的短语中被查找到最相似的双语短语对的短语的每一个，修改其最相似的双语短语对中的源语言短语中与该短语之间意思不同的词汇，使得修改后的该源语言短语与该短语一致，并根据修改后的源语言短语，修改该最相似的双语短语对中的目标语言短语中的相应词汇。

14.根据权利要求8所述的系统，还包括：

译文生成单元，用于根据上述短语模糊匹配单元的匹配结果以及预先设定的语言模型，利用统计模型为上述输入句子生成得分最高的目标语言译文。