CN103631772A

CN103631772A - 机器翻译方法及装置

Info

Publication number: CN103631772A
Application number: CN201210313064.8A
Authority: CN
Inventors: 廖剑; 张永刚; 吴克文; 林锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-08-29
Filing date: 2012-08-29
Publication date: 2014-03-12

Abstract

本申请公开了一种机器翻译方法及装置，其中方法包括：接收待翻译的句子；将所述待翻译的句子中至少一个短语片段分别替换成预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板；对于和模板相匹配的匹配句子，根据模板获取匹配句子与模板的常量相对应的部分的常量翻译结果，通过解码获取匹配句子与模板的变量相对应的部分的变量翻译结果，将常量翻译结果和变量翻译结果拼接；对于不与模板库中的模板匹配的句子，通过解码获取翻译结果。本申请提供的方法及装置，能够减少运算量，并提高翻译质量。

Description

机器翻译方法及装置

技术领域

本申请涉及机器翻译技术，尤其涉及一种机器翻译方法及装置。

背景技术

机器翻译是利用计算机对人类自然语言进行自动翻译的技术，是利用计算机把一种自然语言转换成另一种自然语言的过程，而且两种自然语言在意义上应该是等价的。

目前，一种比较成熟而且主流的机器翻译方法是基于统计的方法，该方法的优点在于几乎不需要人工撰写翻译规则，所有的翻译信息都是自动地从语料中学习而获得，因此该方法最大程度地发挥了计算机高速运算的特点，极大地降低了人工成本。

在基于统计的机器翻译方法中，基于短语的统计机器翻译方法是主要的翻译方法之一。例如，以Google为代表的在线翻译平台基于海量数据进行模型训练，采用了基于短语的统计机器翻译方法。其基本原理为：

假设e,f分别是机器翻译的目标语言（机器翻译中翻译完成的译文）和源语言句子（机器翻译中待翻译的语句），h₁(e,f),h₂(e,f),...,h_M(e,f)分别是e,f上的M个特征，λ₁,λ₂,...,λ_M是与这些特征分别对应的M个参数（权值），那么翻译概率可以用以下公式（1）模拟：

P_{r} (e | f) \approx p_{λ_{1}, λ_{2}, . . ., λ_{M}} (e | f) = \exp [Σ_{m = 1}^{M} λ_{m} h_{m} (e, f)] / \underset{e^{'}}{Σ} \exp [λ_{m} h_{m} (e^{'}, f)] - - - (1)

公式（1）中的分母起到一个概率归一化的作用，对于给定的f，其最佳译文e可以用以下公式（2）表示：

\overset{&OverBar;}{e} = \underset{e}{\arg \max} {P_{r} (e | f)} = \underset{e}{\arg \max} {Σ_{m = 1}^{M} λ_{m} h_{m} (e, f)} - - - (2)

然而，由于各国语言的语法规则不同，在进行翻译时需要对某些词语进行位置互换，即需要对某些词语进行调序。例如，汉英翻译中常见的“的”字结构的汉语句子，在翻译成英语时往往需要互换汉语句子中“的”字两边的部分。基于短语的统计机器翻译的长距离调序能力较差。在需要对句子中的短语进行调序时，只能对距离相近的短语进行调序，对于长距离调序则需要较大的运算量，或者调序效果不佳。

随着机器翻译技术的发展，逐渐将句法分析等融入了统计机器翻译中，从一定程度上提高了翻译质量。

然而，当将机器翻译技术应用于某些特定领域时，通常的统计机器翻译方法无法利用这些特定领域的句型特点，仍然依照常规的基于统计的方法进行翻译，导致翻译结果不准确，而且运算量较大。

发明内容

本申请针对现有技术中存在的问题，提供一种机器翻译方法及装置，从而使得应用于特定领域的机器翻译所需的运算量减少，翻译质量提高。

本申请提供了一种机器翻译方法，包括：

接收待翻译的句子；

将所述待翻译的句子中至少一个短语片段分别替换成预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板；

对于和所述模板相匹配的匹配句子，根据所述模板获取所述匹配句子与所述模板的常量相对应的部分的常量翻译结果，通过解码获取所述匹配句子与所述模板的变量相对应的部分的变量翻译结果，将所述常量翻译结果和变量翻译结果拼接；对于不与所述模板库中的模板匹配的句子，通过所述解码获取翻译结果。

本申请还提供了一种机器翻译装置，包括：

接收模块，用于接收待翻译的句子；

模板匹配模块，用于将所述待翻译的句子中至少一个短语片段分别替换成预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板；

解码模块，用于对于和所述模板相匹配的匹配句子，根据所述模板获取所述匹配句子与所述模板的常量相对应的部分的常量翻译结果，通过解码获取所述匹配句子与所述模板的变量相对应的部分的变量翻译结果，将所述常量翻译结果和变量翻译结果拼接；对于不与所述模板库中的模板匹配的句子，通过所述解码获取翻译结果。

在本申请提供的机器翻译方法及装置中引入了模板。由于模板能够反映特定领域的句型特点，因而，对于能够与模板匹配的待翻译的句子，可以依照模板来翻译，从而使得这部分句子翻译结果准确，提高了翻译质量。而且，由于模板的颗粒度大于短语，通过模板进行翻译时，无需反复提取待翻译的句子中的短语，减少了对于待翻译句子的读取次数，降低了处理器的运算量，从而能够提高翻译效率。

另外，将各个短语片段分别替换为预设字符串，并且在每次替换操作后从模板库中搜索匹配模板。实际上多次替换操作相当于对待翻译句子进行泛化，试图使得待翻译句子的形式与模板库中模板的源语言端的形式更接近，从而增大搜索到匹配模板的几率，进而进一步提高了翻译效率。

通过以下参照附图对本申请实施例进行说明，帮助更进一步理解本申请所公开的内容及权利要求书所要保护的范围。

附图说明

图1示例性示出本申请机器翻译方法涉及到的一种操作环境示意图；

图2示例性示出本申请机器翻译方法一实施例的流程图；

图3示例性示出本申请实施例中涉及到的模板的一个例子；

图4示例性示出本申请实施例中涉及到的一种最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）的依赖图；

图5示例性示出用于实现本申请机器翻译方法的一种逻辑框图；

图6示出一个基于最大熵括号转录语法（Maximal Entropy BracketTransduction Grammar，MEBTG）模型的机器翻译方法生成的二叉树；

图7示例性示出解码器训练部分的详细逻辑框图；

图8示例性示出一种双语句对的对齐例子；

图9示例性示出本申请实施例中涉及到的一种块定义图；

图10示例性示出本申请实施例中涉及到的解码部分的详细逻辑框图；

图11示例性示出本申请机器翻译装置一实施例的结构示意图；

图12示例性示出本申请机器翻译装置另一个实施例的结构示意图。

具体实施方式

下面将详细描述本申请的实施例。应当注意，这里描述的实施例只用于举例说明，并不用于限制本申请。

图1示例性示出本申请机器翻译涉及到的一种操作环境示意图。该操作环境可以包括存储器1和处理器2，该存储器1中可以存储处理器2执行相关操作所需的指令、各种数据模型11以及数据表12等，处理器2可以根据存储器1中存储的指令执行相应的操作，并且可以访问存储器1中存储的各种数据模型11以及数据表12。处理器2也可以通过网络3访问外部存储器5中存储的各种数据库和数据模型等。处理器2可以是中央处理单元（CPU）、微处理器、微控制器等。存储器1可以是各种易失性存储器或非易失性存储器等。

通过接口设备4（例如，鼠标、键盘或触摸屏幕等）可以与处理器2进行交互，例如通过接口设备4可以向处理器2输入待翻译的句子。

图2示例性示出本申请机器翻译方法一实施例的流程图。下面结合图1和图2来描述该实施例的实现过程。该实施例的方法包括以下步骤101-103。

步骤101、接收待翻译的句子。具体地，可以通过接口设备4将待翻译的句子输入到处理器2中。接收到的待翻译的句子的数目可以是一个或多个。

步骤102、处理器2将待翻译的句子中至少一个短语片段分别替换成预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板。

模板库可以存储在存储器1中，该模板库包括预先获取的多个模板。可以通过人工定制的方式获取模板，或者可以从训练语料中自动抽取模板，也可以采用其他方式获取模板，本申请中并不限制获取模板的方式。当在某些特定领域中应用机器翻译方法时，模板可以反映该特定领域的句型特点。例如，当将机器翻译方法应用于电子商务领域时，可以人工编写符合电子商务领域句型特点的模板，或者可以预先获取大量的电子商务领域的双语语料，通过对这些双语语料进行训练来抽取模板。

在本申请的实施例中，可以采用各种形式来定义模板。图3示例性示出本申请中涉及到的模板的一个例子。模板21可以包括源语言端211和目标语言端212，还可以包括模板分数213。这三部分之间可以通过预设符号分割，例如，可以采用“|||”分割。在图3中，源语言端211是一个中文句子，目标语言端212是一个与该中文句子对应的英文句子。模板分数213表示模板的一种置信程度，一个句子可能会与多个模板匹配，进行模板匹配时可以根据模板分数选择可能性最大的一个模板。模板分数可以由人工制定，也可以由机器辅助统计得出，例如可以将模板分数设定为该模板在语料库中能够匹配到的句子的个数。

模板的源语言端211可以包括一个或多个变量和常量，图3中示出的是包括一个变量211c的例子。每个变量均可以包括一个第一预设字符串或一个第二预设字符串。变量211c例如可以包括一个第一预设字符串“#X1#”或一个第二预设字符串“#X2#”。目标语言端212是源语言端211的译文，因而，目标语言端212也包括变量和常量，目标语言端212的变量以附图标记212c表示。

另外，针对特定领域的特殊要求，还可以为模板设置约束条件。增加约束条件，不仅能减少模板匹配的歧义，增加模板匹配的正确率；而且由于对模板形式做了限制，枚举的可能模板数目变少，因此也能够提高机器翻译的效率。例如，模板可以满足如下的约束条件：

（1）、源语言端的变量和目标语言端的变量的数量和名称一致；

（2）、源语言端的任意两个变量之间至少夹设一个常量，也就是说，任意两个变量之间不相邻。

为了简化模板的目的，例如，还可以加入进一步的约束条件：源语言端仅具有两种合法形式，一种是三个常量中间夹设两个变量，另一种是两个常量中间夹设一个变量。例如，以C表示源语言端的常量，以X表示源语言端的变量，那么这两种源语言端的形式分别是：“CXCXC”和“CXC”。

预设字符串可以是第一预设字符串和第二预设字符串中的一个。在步骤102中，处理器2可以执行如下步骤A和B中的至少一个来搜索模板：

A、将待翻译的句子的不在句首和句尾的任意一个短语片段依次分别替换成第一预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板；以及

B、将待翻译的句子的不在句首和句尾的任意两个不相邻短语片段分别替换成第一预设字符串和第二预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板。

可以通过如下的一段伪代码（以下称作伪代码一）来实现上述搜索过程。

将待翻译的句子用一个或多个预设字符串替换后，该句子和模板源语言端的句子有了相似的形式，这样就容易从模板库中找到匹配的模板。

例如，一个待翻译的句子是“这是广角显示器”。处理器2将该待翻译的句子进行分词等处理后，可以将该句子分成如下四个短语片段：

这︱是︱广角︱显示器。

对于句首的短语片段一“这”不进行替换。

首先，处理器2将短语片段二“是”替换为“#X1#”，得到句子S11“这#X1#广角显示器”，并从模板库中搜索与句子S11匹配的模板。假设未找到。

然后，处理器2将短语片段三“广角”替换为“#X1#”，得到句子S12“这是#X1#显示器”，并从模板库中搜索与句子S12匹配的模板。

假设，模板库中一个模板T1源语言端具有“这是#X1#显示器”这样的形式，那么，处理器2可以从模板库中搜索到该模板T1。该模板T1即可以作为与待翻译的句子“这是广角显示器”相匹配的模板。

对于句尾的短语片段四“显示器”不进行替换。

从上述的匹配过程中可以看到，处理器2遍历待翻译句子中除了句首之外的各个短语片段，将各个短语片段依次分别替换为预设字符串，并且在每次替换操作后从模板库中搜索匹配模板。实际上，通过多次替换操作，相当于对待翻译句子进行泛化，试图使得待翻译句子的形式与模板库中模板的源语言端的形式更接近，从而增大搜索到匹配模板的几率，进而可以提高翻译效率。

对于上述待翻译句子“这是广角显示器”，处理器2也可以通过上述步骤B来进行替换操作，即将该句子中除了句首和句尾之外的任意两个不相邻的短语片段分别替换为“#X1#”和“#X2#”，然后再从模板库中搜索与替换后的句子相匹配的模板。

上述实施例中，为了限制匹配模板的数量，仅对除了句首和句尾之外的短语片段进行了替换。当然，本发明不限于此，也可以对位于句首和句尾的短语片段进行替换，具体的替换过程与前述实施例类似，不再赘述。

经过步骤102后，就可以得到匹配结果，该匹配结果可以包括与待翻译句子相匹配的模板以及对应的待翻译句子。该匹配结果可以供后续解码使用。

对于大多数情况而言，模板库中的模板无法覆盖全部待翻译的句子，因而，通过步骤102通常只能得到一部分句子的相匹配模板。

步骤103、对于和模板相匹配的匹配句子，根据模板获取匹配句子与模板的常量相对应的部分的常量翻译结果，通过解码获取匹配句子与模板的变量相对应的部分的变量翻译结果，将常量翻译结果和变量翻译结果拼接；对于不与模板库中的模板匹配的句子，通过解码获取翻译结果。

由于在本申请中引入了模板，因而针对与模板匹配的句子和不与模板库中的模板匹配的句子进行了不同的处理。

在统计机器翻译领域，解码是根据短语表、语言模型和翻译模型等获得概率最大或者代价最小的翻译结果的过程。短语表、语言模型和翻译模型都可以通过训练获得。翻译模型体现了一种语言与另一种语言之间的对应关系。语言模型是用来计算一个句子的概率的模型，反映了翻译结果的流畅程度。例如，翻译模型可以采用基于反向转录语法（Inversion Transduction Grammar，ITG）的模型、基于括号转录语法（Bracketing Transduction Grammar BTG）的模型等。为了实现较好的长距离调序效果，可以采用基于最大熵括号转录语法（Maximal Entropy Bracket Transduction Grammar，MEBTG）的翻译模型。语言模型可以采用N-gram语言模型等。MEBTG翻译模型是熊德意等人在2006年发表的文献（Deyi Xiong,Qun Liu,and Shouxun Lin.2006.MaximumEntropy Based Phrase Reordering Model for Statistical Machine Translation.InProceedings of COLING-ACL2006.）中公开的一种统计机器翻译模型，采用该模型对于处理远距离重排序具有较好的效果。

在步骤103中，对于与模板匹配的句子，严格按照模板进行翻译，具体而言，将该句子中与模板源语言端的常量对应的部分按照模板翻译成目标语言端的常量，该目标语言端的常量可以看作是该句子的常量翻译结果。对于该句子中的变量部分，可以通过解码来获得对应的变量翻译结果。

为了使得翻译质量更好，在步骤103中可以通过如下步骤来获得变量翻译结果：通过解码，获取匹配句子与模板的变量相对应的部分的N个翻译候选，N为自然数；将N个翻译候选分别与匹配句子中的常量翻译结果拼接，获取各个翻译候选对应的全局语言模型得分，将得分最高的翻译候选作为与模板的变量相对应的部分的变量翻译结果。N的取值可以根据处理器的数据处理能力的设置。

例如，可以通过如下的伪代码（以下称作伪代码二）来实现上述过程：

在上述伪代码二中，GlobalLMScore即为全局语言模型得分。

在步骤103中，对于不与模板库中的模板匹配的句子，可以通过解码来获取对应的翻译结果。

在上述实施例的方法中引入了模板。由于模板能够反映特定领域的句型特点，因而，对于能够与模板匹配的待翻译的句子，可以依照模板来翻译，从而使得这部分句子翻译结果准确，提高了翻译质量。而且，由于模板的颗粒度大于短语，通过模板进行翻译时，无需反复提取待翻译的句子中的短语，减少了对于待翻译的句子的读取次数，降低了处理器的运算量。

另外，针对特定领域（例如电子商务领域）的句型特点，可以制定具有特殊约束条件的模板，不仅实用，并且能够减少模板匹配的歧义，增加模板匹配的正确率；同时，由于对模板形式做了限制，枚举的可能模板数目大大变少，只需要将所有可能的模板在模板库中精确匹配即可，算法简单可靠；由于加入约束条件后，可枚举的模板规模较小，而精确匹配速度又很快，所以能够保证很高的翻译效率。

另外，使用了基于模板的翻译和基于统计的MEBTG翻译相结合的方法。对复杂的句型，统计方法通常翻译效果不好，在本申请中对于这部分句子采用基于模板的翻译方法进行翻译，能够保证句子结果的准确性，同时翻译效率也较高；对于不能与模板匹配的句子可以采用基于MEBTG的方法来翻译，这二者互为补充。

在一些特定领域中，由于待翻译的句子中存在较多命名实体，例如人名、机构名、时间、数字等，因而导致采用通常的统计机器翻译方法得到的这些命名实体的翻译结果不准确。例如，在电子商务领域中，待翻译的句子中通常存在较多的产品词，该产品词包括产品名称、产品型号等，如果对于这些产品词不进行特殊处理，则会导致整体翻译质量下降。

为了解决上述问题，在本申请的实施例中，可以对待翻译的句子中的产品词和数字词进行特殊处理。

具体而言，在进行搜索和替换后，可以识别待翻译的句子中的产品词和数字词，将产品词替换为产品词标识符，并将数字词替换为数字词标识符。

例如，可以通过预先训练好的数字词识别模型来识别出待翻译的句子中的数字词，这些数字词可以是表示金钱、日期和数量等的词，例如100$、10000、19日等。例如，“100$”可以泛化为“#NUM-MONEY（X$）#”这样的数字词标识符。当然也可以通过其他的方式来识别出待翻译的句子中的数字词，例如，可以通过基于规则或词典的方法等。

另外，还可以基于预先训练好的产品词识别模型来识别出待翻译的句子中的产品词，然后将该产品词替换为产品词标识符。例如，产品词“Microsoft”可以替换为“#PRODUCT（Microsoft）#”这样的产品词标识符。当然也可以通过其他的方式来识别出待翻译的句子中的数字词，例如，可以通过基于规则或词典的方法等。

上述数字词和产品词的识别连同前述的模板匹配过程可以一起看作是解码之前的预处理。

在解码阶段，可以先对待翻译的句子中的数字词和产品词进行处理，再执行步骤103中的解码步骤。具体而言，执行步骤103中可以首先通过规则匹配方法等获得数字词标识符对应的翻译结果，并通过查询词典等方法获得产品词标识符对应的翻译结果。通过规则匹配方法或词典查询方法获得的数字词标识符对应的翻译结果和产品词标识符对应的翻译结果可以作为唯一的翻译结果放入用于放置解码结果的解码器短语表中。

例如，基于规则匹配，可以将待翻译的句子中的数字词标识符“#NUM-MONEY（X$）#”转换为“X美元”，通过查询词典，可以将待翻译的句子中的产品词标识符“#PRODUCT（Microsoft）#”转换为“微软”。

在本申请的实施例中，将产品词识别模型、数字词识别模型以及其他的用来识别命名实体的模型统一称作命名实体识别模型，命名实体可以用来表示待翻译句子中的实体单元，如：时间、日期、人名、机构名等。

下面描述命名实体识别模型的训练过程。

可以将产品命名实体识别的问题转化为标注问题。例如，在电子商务领域，可以将用于描述产品信息的标题中的词语分为以下几类：

分类	说明
		II	不相关
LL	命名实体左边界
		MM	命名实体中间
RR	命名实体右边界
		LR	单独词语作为命名实体

在本申请的实施例中，使用标注问题中常用的最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）。MEMM是条件概率模型，结合了隐马尔可夫模型和最大熵模型的特征。它并不去解释观察序列如何被生成，而是当给定观察序列时，努力去预测标号序列，这使得该模型可以使用观察序列的任意特征，包括全局特征、描述非局部交互的特征以及滑动窗口等。

假如有一串观察值O₁,...,O_n，需要使用标注集对其进行标注S₁,...,S_n，以最大化条件概率P(S₁,...,S_n|O₁,...,O_n)。在MEMM中，这个概率是马尔可夫转换概率，其中给某观察值标注成某标注的概率依赖于观察值位置及前面位置的标注：

P (S_{1}, . . ., S_{n} | Q_{1}, . . ., Q_{n}) = Π_{t = 1}^{n} P (S_{t} | S_{t - 1}, O_{k})

P(s|s＇，o)给出了在给定以前的状态s＇和当前的观察值o的条件下转移到当前状态s的概率。MEMM从训练数据中学习P(s|s＇，o)，它是通过使用最大熵方法来使得该模型最大可能的与训练数据中的特征约束保持一致，这使得P(s|s＇，o)具有如下的指数形式：

P (s | s^{'}, o) = P_{s^{'}} (s |, o) = \frac{1}{Z (o, s^{'})} \exp (\underset{a}{Σ} λ_{a} f_{a} (o, s))

其中，λ_a是需要被学习的参数，Z(o,s＇)是一个归一化因子。每一个fa是一个布尔特征值，它依赖于状态s和输入观察序列o的任何特征，如“o以一个数字开始”、“o以一个问号结束”。因此，MEMM支持长距离的特征依赖。这种以观察值为条件的状态-观察值转移函数的使用意味着最大熵马尔可夫模型的依赖图具有图4所示的形式。

在MEMM模型中，需要对Viterbi算法作适当修改：重新定义δ_t(s)为在给定至时刻t的观察序列值的条件下，在时刻t时处于状态s的概率值，这样可将Viterbi算法中的递归步骤改写如下：

δ_{t + 1} = \max_{s &Element; S} δ_{t} (s^{'}) P_{s^{'}} (s | o_{t + 1})

其中，δ_t(s')为在给定至时刻t的观察序列值的条件下在时刻t时处于状态s’的概率，δ_t+1为前向概率，s’是当前状态s的上一个状态，P_s＇(s|o_t+1)是给定t+1时刻的状态o_t+1和状态s’的情况下处于当前状态s的概率，S为状态集合。

利用上述模型对训练数据进行训练，当训练过程结束时，这些特征及它们对应的权重将被用来自动标注待翻译句子中的命名实体。

除了采用MEMM模型之外，还可以采用条件随机场（Conditional RandomFields，CRF）模型来训练命名实体识别模型，或者可以采用其他的机器学习方法来训练命名实体识别模型。

通过训练好的命名实体识别模型，可以对待翻译的句子进行预处理，识别出其中的命名实体，并将这些命名替换成相应的标识符。

通过上述的描述可以看出，在本申请的实施例中，对于产品词、数字词等命名实体进行了单独地处理，使得待翻译的句子中的命名实体的翻译可以更为准确。

如同前文中关于解码的描述所提及的，在解码时除了要用到语言模型和翻译模型之外，通常还需要用到短语表。在统计机器翻译技术中，短语表过大是导致内存消耗大和翻译时间长的主要原因之一。本申请的发明人经过实验发现，在44万句对的欧洲语料上可抽取近四千万条短语，大小为3.8G，消耗内存高达8G。而商业化机器翻译系统常使用数千万甚至上亿句对的语料，在此语料上抽取的短语表巨大，消耗大量内存，并且极大地减慢了解码速度。所以如何在尽量不损害翻译质量的情况下，减小短语表规模便是一个很重要的问题。

本申请的发明人经过研究，发现如下情况：

（1）当待翻译的短语超过一定长度时，解码时很难在短语表中找到匹配的短语。由于待翻译的句子与训练语料中的句子存在差异，当短语越长时，短语越难在训练语料中出现。比如训练语料中存在着以下几个句子（仅列出源语言端的句子）“I am a student of America”和“I am a traveler from China”，假设需要翻译句子是“I am a student from China”。可以看到，当需要翻译短语“I am a student”或“from China”时，均能在训练语料中找到对应译文，但当需要翻译更长的短语“I am a student from China”时，便无法在训练语料中找到对应译文了。

（2）短语抽取依赖于词语对齐后的双语语料，词语对齐准确率极大地影响着短语表的质量。当前词语对齐方法的准确率较低，尤其是在一些用语不规范领域（例如电子商务领域）中。所以，在短语表中存在着大量的由于词语对齐错误引起的错误短语对。而本申请的发明人通过进一步观察发现，这些对齐错误往往是因为部分词语在训练语料较少出现，使得词语对齐无法通过统计的方法较好地得到源端短语和正确的目标短语之间的关系，从而引起了对齐错误。而这些错误短语对由于在训练语料中较少出现，所以在短语表中往往出现次数很低，例如只出现1次。

（3）在短语表中，一个源端短语往往对应着多个目标端短语。而由于通常只需要得到最好的翻译结果，所以在解码过程中很多得分较低的目标端短语基本上不能出现在最后的翻译结果中。

基于上述观察到的情况，本申请的发明人认为可以从以下三个方面减小短语表的规模：

（1）减小最大短语长度。本申请的发明人通过实验发现，减小最大短语长度可以极大地减小短语表规模。同时，更小的最大短语长度可以减少解码过程中的短语匹配次数，从而极大提高翻译速度。

（2）过滤短语表中出现次数低于预设阈值短语对。例如可以将预设阈值设为2次或1次等。这些出现次数较低的短语对往往是由于对齐错误而抽取的质量很差的短语对。

（3）减小源端短语对应的目标端短语数目。解码器在读取短语对时，可以仅保留得分最高的前Q个目标端短语。这样，假如一个源端短语有多个目标端短语，则很多得分较低的目标端短语便无法参与解码过程，从而减小内存消耗，并能极大地提高翻译速度。

基于上述分析，本申请的实施例还可以包括如下步骤：通过训练，从经过对齐的平行语料中抽取短语对，将出现次数低于预设阈值的短语对删除；对于每个源端短语，对源端短语对应的多个目标端短语打分，保留得分前Q个目标端短语，并删除其余目标端短语，Q为自然数。这样就可以获得短语表了。

通过上述步骤，减少了短语表中每个源端短语对应的目标端短语的数量，并且删除了出现次数低于阈值的短语对，在保证不会显著影响翻译质量的前提下，减小了短语表的规模，从而可以减小机器翻译过程中的内存消耗，提高机器翻译的速度。

以下通过电子商务领域的一个例子来说明本申请实施例中机器翻译的实现过程。图5示例性示出了用于实现本申请机器翻译方法的一种逻辑框图，在该实现方法中采用了前文提及的熊德意等人公开的MEBTG模型。

首先，对于MEBTG模型进行简要介绍。

在BTG语法下，翻译过程实际更像是一个单语分析过程，该过程使用了下面3条规则：

A→(x，y) (3)

解码时，源语言句子首先被分割成一个短语序列，这和基于短语的翻译模型的方法是一样的。然后，采用上述词汇规则(3)将源语言的短语x翻译成目标语言短语y并形成一个部分翻译A。所有短语翻译完之后，开始使用保序规则(1)和逆序规则(2)。这两条规则都是用来将两个相邻的部分翻译合并成一个更大的部分翻译的，但是保序规则合并时要求两个块的顺序是源语言和目标语言应该保持一致，而逆序规则要求它们的顺序正好相反。解码器不断地使用这两条合并规则，直到源语言句子全部被覆盖。

图5示出了一个基于MEBTG模型的统计机器翻译方法生成的二叉树。树中加“—”的节点是通过逆序规则生成的，即源语言和目标语言语序正好相反；没有加“—”的节点是通过保序规则生成的，即源语言和目标语言语序相同。

MEBTG的重排序模型分数Ω的计算可以表示为如下形式：

Ω＝f(o,A¹,A²),o∈{straight,inverted}

其中o为A¹和A²的顺序，保序（straight）或者逆序（inverted）。在此框架下，重排序模型和3个因素相关联：相邻的两个块A¹和A²以及它们的顺序o。模型的核心问题就是在给定两个相邻块的前提下，如何预测它们的顺序。这是一个典型的两类分类问题。

这里使用最大熵模型，通过判断对调序有提示作用的特征，最后得出调序操作，应用最大熵模型可以得到：

Ω = p_{θ} (o | A^{1}, A^{2}) = \frac{\exp (Σ_{i} θ_{i} h_{i} (o, A^{1}, A^{2}))}{Σ_{o} \exp (Σ_{i} θ_{i} h_{i} (o, A^{1}, A^{2}))}

其中h_i为特征函数，h_i为相应特征的权重。这里的特征均为二值特征：

h_{i} (o, A^{1}, A^{2}) = \{\begin{matrix} 1 & iff (A^{1}, A^{2}) = T, o = O \\ 0 & otherwise \end{matrix}

O∈{straight，inverted}

图6给出了应用于电子商务领域、结合了MEBTG模型的机器翻译方法的实现框图。整个机器翻译方法可以包括产品词识别模型训练部分31、解码器训练部分32和解码部分33这三个组成部分。对于待翻译的句子中的数字词可以通过数字词识别模型来识别，也可以通过其他方式来识别，图6中未示出数字词识别模型的训练部分。

一、产品词识别模型训练部分31

产品词识别模型训练部分31使用一个已有的小规模产品词词典311和大规模的产品信息数据312通过半监督学习的方法（即产品词识别训练313）可以学习到产品词识别模型314，其中，产品信息数据312包括电子商务网站用户搜索词、产品标题、摘要、描述信息等。具体地，产品词识别模型训练部分31可以采用前文描述的命名实体识别模型训练方法来获得产品词识别模型314。在电子商务领域，产品词数量多而且杂乱，如果不针对产品词进行特殊处理，则翻译质量较差。通过选择合适的产品词词典311和产品信息数据312，可以获得适合电子商务领域的产品词识别模型，进而提高翻译质量。

二、解码器训练部分32

解码器训练部分32以大规模平行句对（包括源端句子321和目标端句子322）为输入，经过以附图标记323和324示出的操作（包括词语对齐、短语表抽取、最大熵训练、语言模型训练等训练流程）可以得到MEBTG解码器332解码时需要用到的调序模型325（即最大熵重排序模型）、短语表326和语言模型327。

图7示例性示出解码器训练部分32的详细逻辑框图。解码器训练部分32主要包括对齐部分AP、模型训练部分322和短语过滤部分323。

1、对齐部分AP

词语对齐是训练过程的基础步骤，所有的后续步骤都是建立在词语对齐后的双语语料基础上的。所谓的词语对齐是指使用统计的方法自动获得双语句对中词与词之间的关系。图8示例性示出了一种双语句对的对齐例子。在本申请中，可以采用GIZA++方式来进行双语句对的对齐。

2、模型训练部分TP

MEBTG模型的训练包括两部分，一部分是最大熵重排序模型的训练，另一部分是短语的抽取、过滤和相关概率估计。短语的抽取和概率估计方法可以通过基于短语的统计及其翻译方法来实现，例如可以参考Koehn在2003年发表的文章（Philipp Koehn,Franz Joseph Och,and Daniel Marcu.2003.Statistical Phrase-Based Translation.In Proceedings of the Human LanguageTechnology and North American Association for Computational LinguisticsConference(HLT/NAACL)）。

最大熵重排序模型可以基于上述熊德意等人的文献中公开的内容来实现。具体地，训练一个最大熵重排序模型，可以通过以下三个步骤来实现：S21、抽取重排序实例；S22、抽取特征；S23、构建最大熵分类器。

S21、抽取重排序实例

在介绍重排序实例抽取算法之前，先给出几个与该算法相关的定义。首先引入块（block）的定义，它是由源语言和目标语言连续的词语串组成的二元组，如以下公式所示：

b = < s_{i_{1}}^{i_{2}}, t_{j_{1}}^{j_{2}} >

其中s是源语言从i₁到i₂的连续词语串，t是目标语言从j₁到j₂的连续词语串。块b必须和词语对齐保持一致性：

&ForAll; (i, j) &Element; M, i_{1} \leq i \leq i_{2} &LeftRightArrow; j_{1} \leq j \leq j_{2}

即块b内的所有源端词语只对齐到目标端词语，除此之外不再有其他词语，对于目标端词语而言也是如此。这个定义和双语短语是一样的。为提高效率，可以将块的长度限制于两倍的最大短语长度，与MEBTG解码器保持一致。

在块定义的基础上，以下给出重排序实例的定义以及与重排序实例相关的其它定义。重排序实例R是一个三元组<o,b¹,b²>，其中b¹和b²是两个相邻的块，o是它们的顺序。如果两个块的源语言和目标语言的顺序保持一致，那么它就是保序的；如果源语言的顺序和目标语言的顺序恰恰相反，那么它就是逆序的。

在对齐矩阵中，一个块就相当于一个矩形，矩形的每个顶点可以定义为对应块的角（corner）。每个角在4个方向上分别有4个铰链（link）：右上方（topright），左上方（topleft），右下方（bottomright），左下方（bottomleft）。每个铰链连接一组块，每个块都以该铰链所在的角为它其中的一个顶点。由于被右上方和左下方铰链连接的块是保序的，所以称右上方和左下方铰链为保序铰链（STRAIGHT），左上方和右下方铰链连接的块是逆序的，相应地称它们为逆序铰链（INVERTED）。

上面的所有定义都可以在图9所示的块定义图中得到说明。其中黑点表示角（corner），从角发出的箭头就是铰链。角c₁为块b¹和b²共用的一个顶点，而这两个块同时又被从c₁发出的两个保序铰链连在一起。类似地，b³和b⁴中间的铰链为逆序铰链。

S22、抽取特征

重排序实例抽取出来之后，就可以从重排序实例中提取最大熵分类器所要用到的特征。可以定义两种特征：词汇特征和组合特征。对于块b=<s,t>，可以用s₁表示源语言端的第一个词语，t₁表示目标语言端第一个词语，这些词语称为首词。词汇特征由单个首词，如s₁或t₁组成的；组合特征则是由重排序实例中两个块b¹和b²各自的首词s₁或t₁联合组成的。

S23、构建最大熵分类器

最大熵重排序模型训练的最后一步就是最大熵分类器的构建，即估计特征的权重。

在进行短语过滤和优化时可以采用前述提及的方法来减小短语表的规模。具体地，可以将抽取出的短语对进行过滤，例如，删除其中只出现过一次的短语对，然后对于每个源端短语对应的各个目标端短语进行打分，保留分数最高的Q个目标端短语，进而获取短语表。

三、解码部分33

图10示例性示出本申请实施例中涉及到的解码部分的详细逻辑框图。在解码之前首先进行预处理。

预处理

预处理部分主要针对电子商务领域语料特点对待翻译的句子进行模板匹配、产品词识别和数字词泛化。

具体而言，在预处理中，首先可以为待翻译的句子搜索匹配的模板。具体的匹配方法可以采用前述伪代码一来实现。经过模板匹配后可以获得与待翻译的句子对应的模板。

在预处理中，通过数字词识别模型识别出待翻译的句子中的数字词（相当于得到了中间结果），并将数字词替换成数字词标识符。另外，通过产品词识别模型识别出待翻译的句子中的产品词，并将产品词替换成产品词标识符。经过产品词识别和替换后，可以获得一个产品词标识符集合。

MEBTG解码

由于本申请中在MEBTG模型的基础上引入了模板，因而与熊德意等人的文献中公开的解码方法相比，区别之处在于：在本申请的实施例中，针对与模板匹配的句子和不能与模板匹配的句子分别进行不同的处理。

对于MEBTG解码而言，可以加入一些约束条件，这些约束条件限制了对于句子中与模板的常量匹配的部分必须严格按照模板进行翻译。在MEBTG解码过程中，首先处理待翻译的句子中的产品词标识符和数字词标识符（S41）。具体而言，可以通过规则匹配和词典匹配方法将待翻译的句子中的数字词标识符和产品词标识符翻译成目标语言。

然后，通过MEBTG解码器，将与模板匹配的句子中的变量部分进行逐个解码，并保留N个翻译候选，然后按照模板的顺序从左向右将N个翻译候选和该句子的常量翻译结果拼接。在拼接后，重新计算N个翻译候选对应的全局语言模型得分，然后选择得分最高的作为最终的变量翻译结果并将该变量翻译结果与该常量翻译结果拼接，将拼接后的句子作为最后的翻译结果。

通过上述的实施例，对于电子商务领域的待翻译的句子，针对数字词和产品词等命名实体进行了特殊处理，使得对于数字词和产品词的翻译准确。而且引入了与电子商务领域的句型特点相符合的模板，使得与模板匹配的句子能够基于模板来翻译，从而减少了对于待翻译的句子的读取次数，降低了处理器的运算量，从而能够提高翻译效率。

图11示例性示出了本申请机器翻译装置一个实施例的结构示意图，该装置包括接收模块51、模板匹配模块52和解码模块53。接收模块51用于接收待翻译的句子。模板匹配模块52用于将待翻译的句子中至少一个短语片段分别替换成预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板。解码模块53用于对于和所述模板相匹配的匹配句子，根据所述模板获取所述匹配句子与所述模板的常量相对应的部分的常量翻译结果，通过解码获取所述匹配句子与所述模板的变量相对应的部分的变量翻译结果，将所述常量翻译结果和变量翻译结果拼接；对于不与所述模板库中的模板匹配的句子，通过所述解码获取翻译结果。

其中,所述预设字符串是第一预设字符串和第二预设字符串中的一个；所述模板包括源语言端和目标语言端；所述源语言端包括所述变量和所述常量；在所述源语言端，任意两个变量之间至少夹设一个常量，每个所述变量均包括一个所述第一预设字符串或所述第二预设字符串。

模板匹配模块52可以执行如下步骤中的至少一个：将待翻译的句子的不在句首和句尾的任意一个短语片段分别替换成所述第一预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板；以及将所述待翻译的句子的不在句首和句尾的任意两个不相邻短语片段分别替换成所述第一预设字符串和所述第二预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板。

解码模块53具体可以通过解码，获述匹配句子与所述模板的变量相对应的部分的N个翻译候选，N为自然数，并将N个翻译候选分别与匹配句子中的常量翻译结果拼接，获取各个翻译候选对应的全局语言模型得分，将得分最高的翻译候选作为与所述模板的变量相对应的部分的变量翻译结果。

图12示例性示出本申请机器翻译装置另一个实施例的结构示意图。在上述技术方案的基础上，机器翻译装置还可以包括识别模块54和处理模块55。识别模块54用于在进行搜索和替换后，识别待翻译的句子中的产品词和数字词，将所述产品词替换为产品词标识符，并将所述数字词替换为数字词标识符。处理模块55用于在所述解码之前，通过规则匹配方法获得所述数字词标识符对应的翻译结果，并通过查询词典获得所述产品词标识符对应的翻译结果。

更进一步地，解码模块53还用于根据短语表、语言模型和基于最大熵括号转录语法的翻译模型获得所述变量翻译结果或者不与所述模板库中的模板匹配的句子对应的翻译结果。

更进一步地，上述机器翻译装置还可以包括短语表获取模块56，用于通过训练，从经过对齐的平行语料中抽取短语对，将出现次数低于预设阈值的短语对删除；对于每个源端短语，对所述源端短语对应的多个目标端短语打分，保留得分前Q个目标端短语，并删除其余目标端短语，从而获得所述短语表，Q为自然数。

上述接收模块51、模板匹配模块52、解码模块53、识别模块54、预解码模块56以及短语表获取模块56可以通过由处理器执行相应的操作指令来实现。

虽然已参照典型实施例描述了本申请，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本申请能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施例不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种机器翻译方法，包括：

接收待翻译的句子；

2.根据权利要求1所述的方法，其中，所述预设字符串是第一预设字符串和第二预设字符串中的一个；

所述模板包括源语言端和目标语言端；所述源语言端包括所述变量和所述常量；在所述源语言端，任意两个变量之间至少夹设一个常量，每个所述变量均包括一个所述第一预设字符串或所述第二预设字符串。

3.根据权利要求2所述的方法，其中，将所述待翻译的句子中至少一个短语片段分别替换成预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板，包括如下步骤中的至少一个：

将所述待翻译的句子的不在句首和句尾的任意一个短语片段依次分别替换成所述第一预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板；以及

将所述待翻译的句子的不在句首和句尾的任意两个不相邻短语片段分别替换成所述第一预设字符串和所述第二预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板。

4.根据权利要求1所述的方法，其中，通过解码获取所述匹配句子与所述模板的变量相对应的部分的变量翻译结果，包括：

通过解码，获取所述匹配句子与所述模板的变量相对应的部分的N个翻译候选，N为自然数；

将所述N个翻译候选分别与所述匹配句子中的所述常量翻译结果拼接，获取各个翻译候选对应的全局语言模型得分，将得分最高的翻译候选作为与所述模板的变量相对应的部分的变量翻译结果。

5.根据权利要求1所述的方法，还包括：在进行完搜索和替换步骤后，识别所述句子中的产品词和数字词，将所述产品词替换为产品词标识符，并将所述数字词替换为数字词标识符；

在所述解码之前，通过规则匹配方法获得所述数字词标识符对应的翻译结果，并通过查询词典获得所述产品词标识符对应的翻译结果。

6.根据权利要求5所述的方法，其中，通过数字词识别模型识别所述数字词，通过产品词识别模型识别所述产品词。

7.根据权利要求1所述的方法，其中，所述解码包括：根据短语表、语言模型和基于最大熵括号转录语法的翻译模型获得所述变量翻译结果或者不与所述模板库中的模板匹配的句子对应的翻译结果。

8.根据权利要求7所述的方法，还包括如下通过训练获取短语表的步骤：

通过训练，从经过对齐的平行语料中抽取短语对，将出现次数低于预设阈值的短语对删除；

对于每个源端短语，对所述源端短语对应的多个目标端短语打分，保留得分前Q个目标端短语，并删除其余目标端短语，从而获得所述短语表，Q为自然数。

9.根据权利要求6或8所述的方法，还包括：预先通过训练获取所述语言模型、所述基于最大熵括号转录语法的翻译模型、数字词识别模型和产品词识别模型。

10.一种机器翻译装置，包括：

接收模块，用于接收待翻译的句子；

11.根据权利要求10所述的机器翻译装置，其中,所述预设字符串是第一预设字符串和第二预设字符串中的一个；

12.根据权利要求11所述的机器翻译装置，其中，所述模板匹配模块用于执行如下步骤中的至少一个：将所述待翻译的句子的不在句首和句尾的任意一个短语片段分别替换成所述第一预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板；以及将所述待翻译的句子的不在句首和句尾的任意两个不相邻短语片段分别替换成所述第一预设字符串和所述第二预设字符串，并在每一次替换操作后从模板库中搜索与替换后的句子相匹配的模板。

13.根据权利要求10所述的机器翻译装置，其中，所述解码模块用于通过解码，获取所述匹配句子与所述模板的变量相对应的部分的N个翻译候选，N为自然数，并将所述N个翻译候选分别与所述匹配句子中的所述常量翻译结果拼接，获取各个翻译候选对应的全局语言模型得分，将得分最高的翻译候选作为与所述模板的变量相对应的部分的变量翻译结果。

14.根据权利要求10所述的机器翻译装置，其中，还包括识别模块，用于在进行搜索和替换步骤后，识别所述句子中的产品词和数字词，将所述产品词替换为产品词标识符，并将所述数字词替换为数字词标识符；

处理模块，用于在所述解码之前，通过规则匹配方法获得所述数字词标识符对应的翻译结果，并通过查询词典获得所述产品词标识符对应的翻译结果。

15.根据权利要求14所述的机器翻译装置，其中，所述解码模块用于根据短语表、语言模型和基于最大熵括号转录语法的翻译模型获得所述变量翻译结果或者不与所述模板库中的模板匹配的句子对应的翻译结果。

16.根据权利要求15所述的机器翻译装置，还包括短语表获取模块，用于通过训练，从经过对齐的平行语料中抽取短语对，将出现次数低于预设阈值的短语对删除；对于每个源端短语，对所述源端短语对应的多个目标端短语打分，保留得分前Q个目标端短语，并删除其余目标端短语，从而获得所述短语表，Q为自然数。