CN106383818A

CN106383818A - 一种机器翻译方法及装置

Info

Publication number: CN106383818A
Application number: CN201510461455.8A
Authority: CN
Inventors: 宋楷; 骆卫华; 林锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-07-30
Filing date: 2015-07-30
Publication date: 2017-02-08
Also published as: WO2017017527A1; EP3329385A1; EP3329385A4; US20170031901A1; US10108607B2

Abstract

本发明公开了一种机器翻译方法及装置，用以通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，实现多语种的源语端文本到目标语端文本的翻译，无需识别源语端文本的语种，提高了翻译的准确性，避免了在处理未知语种到目标语种的翻译过程中，语种识别阶段引入的错误，并且支持多语种混合句子的翻译，无需按语种将句子拆分后再翻译再组合，无需开发每一语种到目标语种的机器翻译引擎，节省了开发成本以及服务器资源。该方法包括：确定待翻译的源语端文本，并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果；根据候选结果，确定待输出的目标语端文本。

Description

一种机器翻译方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种机器翻译方法及装置。

背景技术

所谓机器翻译是一种利用计算机程序实现语言的自动翻译过程。现有的机器翻译技术是一种利用计算机程序，实现从一种语言到另一种语言的翻译。最早的机器翻译程序中，大量的使用人工定义的翻译规则，将这些规则形式化成计算机程序，实现翻译功能，基于翻译规则的机器翻译系统具有译文质量高、实现成本高、规则覆盖度小、容易产生歧义等特点。随着计算机处理能力的不断提高，在大规模双语语料上训练翻译子模型(包括翻译规则表、语言模型、调序模型和其他判别式或生成式模型等)，再利用翻译子模型的打分从众多翻译候选中筛选出最合理的目标语译文，这种机器翻译也可以称为统计机器翻译。即统计机器翻译具体是机器翻译的一种，也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析，构建统计翻译模型，进而使用此模型进行翻译。统计机器翻译模型包括基于词的翻译模型、基于短语的翻译模型以及基于句法的翻译模型，目前业界使用最广泛的是基于短语(或层次短语)的翻译模型。

现有的所有统计机器翻译流程，其设计原理和实现的前提都是基于给定源语言和目标语言语种之上的，这是目前所有统计机器翻译流程的基础。即每个统计机器翻译引擎只能处理一个语种对之间的翻译任务，例如法语到英语的翻译、或者中文到英语的翻译等。

由于很多英语场景涉及大量语言对之间的翻译任务，例如某网站包含几十个多语言站和国家分站，对于用户在搜索框输入的查询(Query)，首先要进行语种识别，然后再将其翻译成英文，以英文进行检索，这就需要针对几十种语言到英语的翻译任务，分别开发几十个不同的机器翻译引擎，既耗费较多的开发成本，又耗费较多的服务器资源。

另外，语种识别的准确性也直接影响了用户的搜索意图是否能真正体现在搜索结果里，而基于现有的翻译引擎，语种识别这一步是必不可少的，即在整个搜索流程里，引入了可能导致最终出现错误的环节。

发明内容

本申请实施例提供了一种机器翻译方法及装置，用以通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，实现多语种的源语端文本到目标语端文本的翻译，无需识别源语端文本的语种，提高了翻译的准确性，避免了在处理未知语种到目标语种的翻译过程中，语种识别阶段引入的错误，并且支持多语种混合句子的翻译，无需按语种将句子拆分后再翻译再组合，无需开发每一语种到目标语种的机器翻译引擎，节省了开发成本以及服务器资源。

本申请实施例提供的一种机器翻译方法，包括：

确定待翻译的源语端文本，并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果；

根据所述候选结果，确定待输出的目标语端文本。

该方法利用包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，实现了多语种的源语端文本到目标语端文本的翻译，无需识别源语端文本的语种，提高了翻译的准确性，避免了在处理未知语种到目标语种的翻译过程中，语种识别阶段引入的错误，并且支持多语种混合句子的翻译，无需按语种将句子拆分后再翻译再组合，无需开发每一语种到目标语种的机器翻译引擎，节省了开发成本以及服务器资源。

可选地，利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果，包括：

将待翻译的源语端文本以短语为单位，进行划分，得到至少一个短语，通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则，确定每一短语对应的翻译结果；

将所述每一短语对应的翻译结果进行拼接，或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则，得到目标语端文本的至少一个候选结果。

可选地，当所述待翻译的源语端文本包括单一语种的短语时，根据所述候选结果，确定待输出的目标语端文本，包括：

对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分，并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。

可选地，根据打分结果选择至少一个候选结果作为待输出的目标语端文本，包括：

针对每一候选结果，将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重，并将每一乘积相加，得到该候选结果对应的和值；

选择和值最大的一个或多个候选结果作为待输出的目标语端文本。

可选地，当所述待翻译的源语端文本包括多个语种的短语时，根据所述候选结果，确定待输出的目标语端文本，包括：

对每一所述候选结果分别进行语言模型打分和翻译规则表打分，并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。

也就是说，当待翻译的源语端文本包括多个语种的短语时，无需调序模型打分，没有对应的调序模型的查询结果，因此视为正序输出，不考虑逆序的情况。

针对每一候选结果，将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重，并将每一乘积相加，得到该候选结果对应的和值；

与上述本发明实施例提供的方法相对应地，本发明实施例提供的一种机器翻译装置，包括：

第一单元，用于确定待翻译的源语端文本，并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果；

第二单元，用于根据所述候选结果，确定待输出的目标语端文本。

可选地，所述第一单元利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果时，具体用于：

可选地，当所述待翻译的源语端文本包括单一语种的短语时，所述第二单元具体用于：

可选地，所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时，具体用于：

可选地，当所述待翻译的源语端文本包括多个语种的短语时，所述第二单元具体用于：

附图说明

图1为本发明实施例提供的机器翻译训练阶段的整体流程示意图；

图2为本发明实施例提供的词对齐训练的结果示意图；

图3为本发明实施例提供的自底向上的拼接结果的翻译流程示意图；

图4为本发明实施例提供的一种机器翻译方法的流程示意图；

图5为本发明实施例提供的一种机器翻译装置的结构示意图；

图6为本发明实施例提供的另一种机器翻译装置的结构示意图。

具体实施方式

本发明实施例提供了一种机器翻译方法及装置，用以通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，实现多语种的源语端文本到目标语端文本的翻译，无需识别源语端文本的语种，提高了翻译的准确性，避免了在处理未知语种到目标语种的翻译过程中，语种识别阶段引入的错误，并且支持多语种混合句子的翻译，无需按语种将句子拆分后再翻译再组合，无需开发每一语种到目标语种的机器翻译引擎，节省了开发成本以及服务器资源。其中，所述的源语端，即翻译过程中的原文，一般指句子，也可以是短语或单词。所述的目标语端，即翻译过程中的译文，一般指句子，也可以是短语或单词。

以下本发明实施例中所述的翻译模型，包括：包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表(即多语种短语表)、语言模型、和调序模型。其中，每一所述模型预先设置有各自的权重值，该权重值可以是预先训练得到的。

现有技术方案局限于固定源语端的语种，即现有技术针对每一种不同的源语端和目标语端的语言对，开发一个相应的翻译引擎，在语种非常丰富的应用场景中，这种做法既耗费开发成本(需要为每一个语言对独立开发一套机器翻译系统)，又耗费服务器资源(需要为每一个语种对的翻译引擎独立部署服务器)。另外，在源语端语种未知的场景下，需要首先进行语种识别，才能使用传统的统计机器翻译引擎进行翻译任务，语种识别阶段会引入错误，导致翻译结果不符合预期。最后，某些场景下，待翻译的文本不仅局限于由某种语言书写，而是由多个语种混合而成，这种情况下，传统的统计机器翻译引擎无法处理。

针对上述缺点，本发明实施例对现有技术进行改进，对源语言的语种不敏感，即可以实现多个源语言语种到一种目标语语种的翻译，因此可以解决开发成本高、服务器耗费大的问题，且避免了在很多应用场景中，语种识别准确率较低导致的翻译错误的问题，并且支持翻译由多个语种混合组成的文本。同时，相比于传统的一对一的统计机器翻译系统，在翻译质量和性能上并无损失。

本发明实施例提供的整体流程包括训练和解码两个阶段。参见图1，其中训练阶段包括语料准备、语料预处理、词对齐训练、短语表抽取、调序模型训练以及语言模型训练。下面分别给出详细说明。

一、训练阶段：

关于训练语料准备：

传统的统计机器翻译系统，每个语言对之间都需要相应的双语平行语料，例如“英法”翻译系统，需要的是英语和法语的双语平行语料，本发明实施例提供的方案中，分别获取各个语种对的双语平行语料，以将葡(葡萄牙语)、西(西班牙语)、法(法语)三种语言翻译成英(英语)为例，需要分别获取“英—葡”、“英—法”、“英—西”这三个语种对的双语平行语料。其中，英语端的语料不要求一致，即各语种对中的英文端的语料不要求必须相同，可以是不同的英文句子，只要各自和相应的目标语端构成平行语料即可。各个语种对双语平行语料的规模(即双语平行语料的句子个数)大致相同，即每个语种对包含的句子个数大致相同即可。

关于双语语料预处理：

所述的双语平行语料，即句子层面对齐的机器翻译训练语料，语料中每一行的两个句子互为翻译。例如：给定两个名为“中文.txt”和“英文.txt”的文本文件，每个文件均包含100个句子，这两个文件同一行的句子互为译文。即“中文.txt”中的第i句和“英文.txt”中的中的第i句互为中英翻译。

双语语料预处理阶段主要包括分词、切标点以及对不可枚举类型字串的识别、翻译和泛化。这里的翻译过程主要是利用规则进行翻译，不涉及统计学的知识，预处理阶段的主要目的是缓解词对齐过程的数据稀疏问题。

具体地，本发明实施例中，需要对双语语料进行预处理，将一些不可枚举的字符串泛化成相应的标签，以减少后续模型训练过程中的数据稀疏问题。另外，还需要将句子中的标点符号和文字切开。其中，所述的字符串是指由字符组成的连续的词或短语，甚至是句子。所述的标签是指代表这一字符串所属类别的标记，例如：字符串“2012年5月2日”的标签是“日期”。所述的泛化是指通过计算机程序自动识别的方式，将一些不可枚举的字符串，识别出其相应的类别，并用其类别标签代替字符串本身。例如，将文本中所有形如“2012年5月2日”的字符串，都替换成“$date”，这一过程即为泛化。

关于词对齐训练：

词对齐训练的最终目的是得到双语句对中词和词的位置对应关系。训练过程完全基于双语句对，不涉及句法结构，例如，得到的词对齐结果如图2所示。

词对齐训练在各个语种对上分别进行，每个语种对上的词对齐训练过程和传统的统计机器翻译流程中的词对齐训练方法相同，最终分别得到每个语种对内词和词的对应关系。

关于多语种短语表的确定，即通过翻译规则的抽取，形成翻译规则表：

短语表抽取，是指从双语句对和词对齐结果的基础上，按照传统的一致性规则，抽取互译的短语对，以及给出短语对之间相应的翻译概率。

基于词对齐训练的结果，可以在训练语料上抽取翻译规则，并针对每条翻译规则，给出多种翻译概率(包括正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率等)。基于短语的翻译模型产生的翻译规则表，是在大规模双语平行语料上学习得到的翻译规则的集合，是机器翻译过程的基本转化单元。

具体地，在分别得到各个语种对的词对齐结果后，需要将各个语种对的源语端、目标语端、词对齐结果进行合并。例如，首先将葡、西、法三个源语端的句子合并，再将相应的目标语端的英文进行合并，最后，将词对齐结果合并。

例如，文件级别的合并即可，假设有“葡语-英语”句对300句，“西语-英语”句子300句，“法语-英语”句子400句，那么，合并后的句子个数为300+300+400＝1000句。即合并后的源语端句子为1000句，目标语端句子为1000句，词对齐结果也是1000句。

当得到合并后的源语、目标语和词对齐结果后，就可以进行短语表抽取，得到所述的多语种短语表，其中包括源语端短语到目标语端短语的翻译规则，以及相应的翻译概率。

例如，最终得到的多语种短语表中，源语端的片段既可以是葡语，也可以是西语或者法语，目标语端的短语片段是英语。所述片段是只由单个词或多个词构成的短语，可以是不具有实际语义的短语。

关于调序模型训练：

调序模型用于对翻译候选结果进行打分，调序模型的打分决定生成的目标语端的翻译候选的前后顺序。

具体的，分别在合并后得到的源语和目标语语料中，抽取各自的调序模型的训练样本，这些训练样本不仅限于一种语言对，利用最大熵分类模型，可以训练得到一个分类器，给定一个样本，该分类器可以判断该样本的类别为正序或是逆序，即是否进行调序。

调序模型本质上是一个有监督的机器学习模型，有监督的机器学习的过程即是在训练样本上提取特征，通过迭代式的训练，最终得到目标函数(调序模型)中的所有未知参数的值的过程。当对新的样本进行判别时，通过特征抽取，以及利用训练得到的参数的值，可以得到调序模型(目标函数)的打分，这个打分既可以直接用作判断样本所属类别，又可以作为一个子模型的打分用在其他系统里面。

调序模型的训练样本是从双语句对和词对齐的结果中获取到的，这些训练样本会作为最大熵分类模型的训练数据，从这些训练样本中，可以提取出用于最大熵分类模型训练的特征(主要是一些调序特征：例如边界词等信息)，基于这些训练样本，可以训练出一个最大熵调序模型。在机器翻译解码阶段，利用这个最大熵调序模型，可以对每一组待拼接的翻译候选(例如每一短语对应的翻译结果)，在其拼接成为更长的片段(新的翻译候选或者称为候选结果)的过程中，给出其“正序”和“逆序”的模型打分。调序模型的打分作为整个机器翻译解码过程中一个子模型的打分，可以干预最终产生的结果。

关于语言模型训练：

所述语言模型，即在目标语端文本上利用统计学知识和机器学习算法学习到的模型，用来评价目标语片段的流利度。

语言模型训练在目标语端，例如英语端进行，主要是为了训练得到一个统计模型，该模型用来评价译文的流利度。

语言模型是基于目标语端的文本做的，目的是统计n元目标语端短语片段在目标语端训练语料所代表的目标语语系和应用场景下出现的可能性，可以体现译文片段的流利度。

关于参数调优：

机器翻译的解码过程，需要很多模块的共同指导，以帮助解码器从众多翻译候选中找出最优翻译，常用的包括翻译规则模块、语言模型模块、调序模型模块等等，这些模块的决策能力(既权重)的大小各不相同，可以最小错误率训练(Minimum Error Rate Training,MERT)算法或在线学习算法(MarginInfused Relaxed Algorithm，MIRA)等算法来训练得到这些子模型的权重，这个过程即为参数调优。

关于解码阶段：

解码过程采用最大熵浅层句法解码算法(Maximal Entropy BracketTransduction Grammar，MEBTG)解码，即给定一个源语言的句子，将其切割成片段，从短语翻译表中找到每个片段的多个翻译候选，不断的将这些片段的翻译候选进行组合，组合的过程中依据短语表打分、语言模型打分、调序模型打分来进行过滤和筛选，最终得到一个完整的目标语端的句子。

本发明实施例中的解码阶段可以针对混合语种组成的文本，在将两个源语端短语片段的翻译候选进行拼接时，若查询调序模型的特征打分时，查询不到结果，则表明这两个源语端的短语片段属于不同的语种，则目标语端的翻译候选为正向拼接，即不进行逆序操作。

例如，在对“[esto es][um livro]”进行翻译时，西班牙语[esto es]可以翻译成英文[this is]，葡萄牙语[um livro]可以翻译成[a book]，再分别得到“[esto es]->[this is]”和“[um livro]->[a book]”这两个翻译候选后，在得到“[esto es][umlivro]”的整体翻译时，可以考虑将上述的两个翻译候选拼接起来组成整体译文的方法，在将两个译文片段进行拼接时，需要考虑“正序”拼接和“逆序”拼接两种情况，这时，需要考虑这两种情况调序模型的打分，即通过分别从“正序”拼接和“逆序”拼接这两种组合方式中提取特征，得到最大熵调序模型的打分。当源语端的两个片段属于同一个语种时，可以得到最大熵模型的打分，当源语端的两个片段分别属于不同的语种时，由于在训练最大熵调序模型时，缺少相应的训练样本，因此无法通过查询获得调序模型的打分，则只考虑正序输出的情况。

解码阶段详细描述如下：

首先，以排列组合的方式，将输入的句子以词为边界，切割成不同大小(即词的个数不同)的短语，以最大短语长度为7为例，则输入片段被切割成最大长度为7个词的短语，最小长度即1个词。

假设源语端的句子是“我们都是中国人”，那么切割后的短语包括：“我们”，“都是”，“中国”，“人”，“我们都是”，“都是中国”，“中国人”，“我们都是中国”，“都是中国人”，“我们都是中国人”。

针对每种切割方式，自左向右，自底向上的拼接每个短语的目标语端翻译候选，每个短语的翻译候选从上述短语表中可以查询得到。当某一个短语片段包含多个语种时，短语表查询结果为空，即该短语为不合法的短语，自动跳过这种组合方式。

其中，自底向上的拼接过程，如图3所示。在上述切割方式下，对切割的单元分别获取译文，再将译文拼接，如果更长的源语端片段，本身在短语表中也有相应的翻译规则，那么其本身作为整体从短语表中得到的译文，和通过拼接得到的译文，共同作为这个较长片段的翻译候选。

当考虑某种拼接方式下，两个源语端短语片段的翻译候选时，还要根据语言模型打分、翻译概率打分、调序模型打分，来综合判断这种拼接方式是否会成为最佳的翻译子结果。较佳地，首先利用调序模型进行判断，即当以某两个源语端的短语片段以及其相应的目标语翻译候选作为输入，在调序模型中查询不到相应的结果时，则视为正序输出，不考虑逆序的情况，即只计算正序拼接目标语翻译候选的综合打分，该打分可以决定该翻译子结果是否出现在最终结果中。其中，正序拼接形成一种翻译候选，查询得到调序模型打分；逆序拼接形成另一种翻译候选，查询得到其调序模型打分。某一个较长的源语端片段的翻译结果，即为将两个较短的目标语端片段的译文按“正序”或“逆序”拼接的结果，或直接由短语表中查询得到该较长源语端片段的候选译文。

翻译候选的综合打分等于各个模型的打分乘以该模型相应的权重再累和，得到每一翻译候选的综合分值。所有翻译候选中，综合分值最高的一个或多个候选，会成为最终的翻译结果。在所有不同切割方式下，目标语所有翻译候选片段的正序和逆序拼接方式的综合打分全部被计算出来后，即可得到最终的翻译结果。

综上，解码的过程即是自左向右、自底向上的不断拼接相邻的源语端短语片段的目标语端翻译候选的过程，拼接的过程中考虑正序和逆序拼接，并利用之前训练得到的各个模型的打分结果得到一个综合打分，由该综合打分来决定哪种拼接方式下的哪个翻译候选作为最终结果。不同模型的权重不同，可以用多种方法获取各个模型的权重，即上述参数调优的过程，每个模型的权重决定了每个子模型的打分的重要程度，不同模型的打分乘以相应的权重，再线性相加，可以得到最终的综合打分。

上述的各个模型的打分，包括：翻译规则表打分(即翻译概率打分)，语言模型打分，和调序模型打分。其中的翻译规则表打分是通过从双语句对和词对齐的信息中，统计互译短语出现的频率等信息，最终得到的某一个短语，翻译成目标语端相应的译文的概率，由于同一个源语端的短语，可以产生多个目标语端的翻译候选，因此，不同的翻译候选会有不同的概率，这个概率即为打分。

解码过程举例如下：

输入为源语端句子为S，由J个词构成，以及模型u和权重λ，输出为1个最优的翻译候选。

首先，对源语端句子进行切割，得到长度不同的连续的源语端片段，这些源语端片段互相可以有交叠。每一个片段对应一个单元(cell)，cell中存储该片段的目标语端翻译候选，这些翻译候选最初由短语表查询得到。

自底向上的将小的源语端片段，拼接成较大的片段，拼接的过程中会使用compose函数，通过不断拼接，最终可以得到整句的翻译候选。

compose函数的作用是将两个待拼接的较小片段所对应的cell中的所有翻译候选，分别按正序和逆序进行拼接，并将拼接结果放到较长的片段对应的cell中，然后根据模型打分对这个cell中的翻译候选进行筛选，最终只保留有限个数的翻译候选。

需要注意的是：较长片段的部分翻译候选不一定由拼接得到，也可以直接通过查询上述短语表获得。即较长的片段可以由不同的较短的片段拼接得到，拼接的结果会放在同一个cell中。

由此可见，本发明实施例提供的一种机器翻译方法，参见图4，包括：

S101、确定待翻译的源语端文本，并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果；

S102、根据所述候选结果，确定待输出的目标语端文本。

该方法通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表的多语种短语表，实现多语种的源语端文本到目标语端文本的翻译，无需识别源语端文本的语种，提高了翻译的准确性，避免了在处理未知语种到目标语种的翻译过程中，语种识别阶段引入的错误，并且支持多语种混合句子的翻译，无需按语种将句子拆分后再翻译再组合，无需开发每一语种到目标语种的机器翻译引擎，节省了开发成本以及服务器资源。

可选地，当所述待翻译的源语端文本包括单一语种的短语时，根据打分结果选择至少一个候选结果作为待输出的目标语端文本，包括：

可选地，当所述待翻译的源语端文本包括多个语种的短语时，根据打分结果选择至少一个候选结果作为待输出的目标语端文本，包括：

与上述本发明实施例提供的方法相对应地，参见图5，本发明实施例提供的一种机器翻译装置，包括：

第一单元11，用于确定待翻译的源语端文本，并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果；

第二单元12，用于根据所述候选结果，确定待输出的目标语端文本。

可选地，当所述待翻译的源语端文本包括单一语种的短语时，所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时，具体用于：

可选地，当所述待翻译的源语端文本包括多个语种的短语时，所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时，具体用于：

以上本发明实施例中所述的第一单元和第二单元，均可以由具体的处理器的实体设备实现。例如：

参见图6，本发明实施例提供的另一种机器翻译装置，包括：

处理器21，该处理器被配置为执行具备下列功能的计算机程序：

根据所述候选结果，确定待输出的目标语端文本。

存储器22，该存储器被配置为保存上述计算机程序的代码。

可选地，处理器利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果时，具体用于：

可选地，当所述待翻译的源语端文本包括单一语种的短语时，处理器对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分，并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。

可选地，当所述待翻译的源语端文本包括单一语种的短语时，处理器根据打分结果选择至少一个候选结果作为待输出的目标语端文本时，具体用于：

可选地，当所述待翻译的源语端文本包括多个语种的短语时，处理器对每一所述候选结果分别进行语言模型打分和翻译规则表打分，并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。

可选地，当所述待翻译的源语端文本包括多个语种的短语时，处理器根据打分结果选择至少一个候选结果作为待输出的目标语端文本时，具体用于：

综上所述，由于短语规则表(即多语种短语表，简称短语表)中的源语端包含多种语言，因此无需特殊指定待翻译句子所属的语种，对于翻译规则表来说，给定一个源语端的短语片段，即可返回相应的目标语，以及翻译规则的打分，因此在一定程度上，做到了对源语端的语种不敏感。另外，在解码阶段，利用调序模型的限制，实现了对混合语种组成的待翻译文本的支持。无需指定源语言的语种，可以实现任意引擎可处理的源语端语种到指定目标语端语种的翻译。

本发明实施例提供的方法同样适用于基于句法的翻译模型，包括层次短语模型、树到串模型、串到树模型、树到树模型。基于句法的模型中，不论是层次短语模型、树到树模型、树到串模型还是串到树模型，都不可避免的要使用短语表作为基本的翻译单元，只是短语表中翻译规则的结构有所不同。因此，通过将双语平行语料和词对齐结果合并，再抽取翻译规则表的方式，可以适应于任何一种上述的统计机器翻译流程。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种机器翻译方法，其特征在于，该方法包括：

根据所述候选结果，确定待输出的目标语端文本。

2.根据权利要求1所述的方法，其特征在于，利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果，包括：

3.根据权利要求2所述的方法，其特征在于，当所述待翻译的源语端文本包括单一语种的短语时，根据所述候选结果，确定待输出的目标语端文本，包括：

4.根据权利要求3所述的方法，其特征在于，根据打分结果选择至少一个候选结果作为待输出的目标语端文本，包括：

5.根据权利要求2所述的方法，其特征在于，当所述待翻译的源语端文本包括多个语种的短语时，根据所述候选结果，确定待输出的目标语端文本，包括：

6.根据权利要求5所述的方法，其特征在于，根据打分结果选择至少一个候选结果作为待输出的目标语端文本，包括：

7.一种机器翻译装置，其特征在于，该装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第一单元利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表，确定目标语端文本的候选结果时，具体用于：

9.根据权利要求8所述的装置，其特征在于，当所述待翻译的源语端文本包括单一语种的短语时，所述第二单元具体用于：

10.根据权利要求9所述的装置，其特征在于，所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时，具体用于：

11.根据权利要求7所述的装置，其特征在于，当所述待翻译的源语端文本包括多个语种的短语时，所述第二单元具体用于：

12.根据权利要求11所述的装置，其特征在于，所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时，具体用于：