CN106649282A

CN106649282A - 基于统计的机器翻译方法、装置及电子设备

Info

Publication number: CN106649282A
Application number: CN201510726342.6A
Authority: CN
Inventors: 黄瑞; 骆卫华; 林锋; 许星
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-05-10
Also published as: US20170124071A1; EP3369001A1

Abstract

本发明公开了一种基于统计的机器翻译方法、装置及电子设备，以及一种构建翻译质量预测模型的方法和装置。其中所述基于统计的机器翻译方法，通过针对待翻译文本的各个候选译文，根据待翻译文本和候选译文，获取语言方面的翻译特征，以及根据业务信息获取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，计算各个候选译文的翻译质量得分；然后，选取预设数量的翻译质量得分排在高位的候选译文，作为待翻译文本的译文。采用本申请提供的方法，不仅能够产生语言准确的翻译结果，同时还能够满足实际业务目标，从而达到了提高翻译质量的效果。

Description

基于统计的机器翻译方法、装置及电子设备

技术领域

本申请涉及机器翻译技术领域，具体涉及一种基于统计的机器翻译方法、装置及电子设备。本申请同时涉及一种构建翻译质量预测模型的方法和装置。

背景技术

国际化电子商务是近年高速发展的一个新兴市场，但语言障碍是制约电子商务发展国际化的一个因素，目前大多数多语种网站，都是在本土语言的基础上，翻译成其他多种语言版本，以达到快速抢占国际市场的目的。一个好的机器翻译引擎，可以很大程度上降低多语言市场的成本，帮助多语言用户解决语言障碍。

机器翻译是将一种语言表达的文本翻译成另外一种语言表达的文本，翻译特征以及特征权重影响最终的翻译结果。传统的机器翻译方法所依据的翻译特征是指，候选译文在语言方面的翻译特征，例如，正向短语翻译概率，反向短语翻译概率，正向词汇翻译概率，反向词汇翻译概率，短语个数惩罚，词语个数惩罚，调序模型概率和语言模型概率等。在计算获取到语言方面的翻译特征后，再通过预先生成的翻译质量预测模型(主要包括各个翻译特征的权重值)，预测各个候选译文的翻译质量，从中选取出较高翻译质量的候选译文作为最终翻译结果。可见，传统机器翻译方法的目标是提高翻译结果在语言方面的准确性。

在实际应用中，一个待翻译文本可以有很多种翻译结果，单纯从自然语言角度来看，这些翻译结果都是正确的。但是，不同的翻译结果在不同的场景下，可能会对用户行为产生不同的影响。例如，在多语种的电子商务网站上，用户输入查询词“Hat”后，当系统在中文商品库中检索到带有“帽子”的商品后，需要把每一个中文检索结果均翻译成英文，以供用户查看；假设中文原文为“红色帽子”，英文有两种翻译方式“Red Hat”和“Red Cap”，这两种翻译方式如果脱离场景从语言上看都是正确的，然而，当查询词为“Hat”时，电商场景下的用户更倾向于点击与查询词相同的翻译结果“Red Hat”。由此可见，不同的翻译结果在不同的场景下，可能会对用户行为产生不同的影响，即：翻译质量的评估标准不仅包括语言方面的准确性，还包括与应用场景相关的业务目标。对上例而言，翻译质量的评估标准还包括：翻译结果是否能够吸引用户点击或购买。

综上所述，现有机器翻译方法并未考虑到具体的应用场景。在特定应用场景下，使用现有机器翻译方法产生的翻译结果可能存在翻译质量不足、无法满足业务目标的问题，从而不利于用户体验。因此，现有技术存在无法根据应用场景评估候选译文翻译质量的问题。

发明内容

本申请提供一种基于统计的机器翻译方法、装置及电子设备，以解决现有存在无法根据应用场景评估候选译文翻译质量的问题。本申请另外提供一种构建翻译质量预测模型的方法、装置及电子设备。

本申请提供一种基于统计的机器翻译方法，包括：

获取待翻译文本和业务信息；

对所述待翻译文本进行解码，生成所述待翻译文本的多个候选译文；

针对各个候选译文，根据所述待翻译文本和所述候选译文，获取语言方面的翻译特征；以及根据所述业务信息，抽取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，计算所述多个候选译文的翻译质量得分；

选取预设数量的所述翻译质量得分排在高位的候选译文，作为所述待翻译文本的译文。

可选的，所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者；所述业务方面的翻译特征包括应用场景特征、用户静态属性特征和用户历史行为特征的至少一者。

可选的，所述基于统计的机器翻译方法应用在搜索场景，所述翻译质量得分对所述候选译文作为搜索结果时的搜索点击率产生影响；所述应用场景信息包括由目标语言表达的查询词；所述应用场景特征包括：所述候选译文是否包括所述查询词、所述查询词在所述候选译文中的位置、所述候选译文是否包括未翻译的词和所述候选译文包括的词数量的至少一者；其中，所述目标语言是指所述候选译文所属的语言。

可选的，所述待翻译文本，采用如下步骤获取：

获取用户输入的由所述目标语言表达的查询词；

将所述由所述目标语言表达的查询词翻译为由源语言表达的查询词；所述源语言是指所述待翻译文本所属的语言；

根据所述由源语言表达的查询词，检索获取所述待翻译文本。

可选的，通过机器学习算法，从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型；所述历史翻译记录包括原文、译文和业务信息。

可选的，所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者。

可选的，所述历史翻译记录集来源于搜索场景；所述业务处理结果包括：所述译文作为搜索结果时其是否被点击、或者所述译文标识的商品作为搜索结果时所述商品是否被购买；所述应用场景信息包括由目标语言表达的查询词；其中所述目标语言是指所述译文所属的语言。

可选的，不同目标语言对应不同的所述翻译质量预测模型；根据所述目标语言的所述历史翻译记录集，生成所述目标语言的所述翻译质量预测模型；其中所述目标语言是指所述译文所属的语言。

可选的，在从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型之前还包括：

通过预设的噪音数据过滤算法，从所述历史翻译记录集中剔除噪音历史翻译记录。

可选的，所述通过机器学习算法，从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型，包括：

获取所述历史翻译记录集；

针对各个历史翻译记录，根据所述历史翻译记录中的所述原文和译文，获取所述历史翻译记录中的语言方面的翻译特征；以及根据所述历史翻译记录中的所述业务信息，抽取所述历史翻译记录中的业务方面的翻译特征；

通过所述机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得所述翻译质量预测模型。

可选的，所述机器学习算法采用逻辑回归算法；在学习获得所述翻译质量预测模型的过程中，采用如下优化目标：

其中，P(y_k|w，fea_k)为搜索点击率；y_k表示历史翻译记录k的业务处理结果，如果历史翻译记录k中的译文在一次曝光中被点击，那么y_k＝1，否则y_k＝0；w为翻译质量预测模型中各个翻译特征的特征权重组成的权重向量；fea_k表示从历史翻译记录k中抽取得到的翻译特征。

相应的，本申请还提供一种基于统计的机器翻译装置，包括：

获取单元，用于获取待翻译文本和业务信息；

解码单元，用于对所述待翻译文本进行解码，生成所述待翻译文本的多个候选译文；

特征抽取和预测单元，用于针对各个候选译文，根据所述待翻译文本和所述候选译文，获取语言方面的翻译特征；以及根据所述业务信息，抽取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，计算所述多个候选译文的翻译质量得分；

选取单元，用于选取预设数量的所述翻译质量得分排在高位的候选译文，作为所述待翻译文本的译文。

可选的，所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者；所述业务方面的翻译特征包括应用场景特征、用户静态属性特征和用户历史行为特征的至少一者；

所述翻译质量得分对所述候选译文作为搜索结果时的搜索点击率产生影响；所述应用场景信息包括由目标语言表达的查询词；所述应用场景特征包括：所述候选译文是否包括所述查询词、所述查询词在所述候选译文中的位置、所述候选译文是否包括未翻译的词和所述候选译文包括的词数量的至少一者；其中，所述目标语言是指所述候选译文所属的语言；

所述获取单元包括：

获取子单元，用于获取用户输入的由所述目标语言表达的查询词；

翻译子单元，用于将所述由所述目标语言表达的查询词翻译为由源语言表达的查询词；所述源语言是指所述待翻译文本所属的语言；

检索子单元，用于根据所述由源语言表达的查询词，检索获取所述待翻译文本。

可选的，还包括：

训练单元，用于通过机器学习算法，从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型；所述历史翻译记录包括原文、译文和业务信息。

可选的，还包括：

过滤数据单元，用于通过预设的噪音数据过滤算法，从所述历史翻译记录集中剔除噪音历史翻译记录。

可选的，所述训练单元包括：

获取子单元，用于获取所述历史翻译记录集；

特征抽取子单元，用于针对各个历史翻译记录，根据所述历史翻译记录中的所述原文和译文，获取所述历史翻译记录中的语言方面的翻译特征；以及根据所述历史翻译记录中的所述业务信息，抽取所述历史翻译记录中的业务方面的翻译特征；

学习子单元，用于通过所述机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得所述翻译质量预测模型。

相应的，本申请还提供一种电子设备，包括：

显示器；

处理器；以及

存储器，所述存储器被配置成存储基于统计的机器翻译装置，所述基于统计的机器翻译装置被所述处理器执行时，包括如下步骤：获取待翻译文本和业务信息；对所述待翻译文本进行解码，生成所述待翻译文本的多个候选译文；针对各个候选译文，根据所述待翻译文本和所述候选译文，获取语言方面的翻译特征；以及根据所述业务信息，抽取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，生成所述多个候选译文的翻译质量得分；选取预设数量的所述翻译质量得分排在高位的候选译文，作为所述待翻译文本的译文。

此外，本申请还提供一种构建翻译质量预测模型的方法，包括：

获取已标注业务处理结果的历史翻译记录集；所述历史翻译记录包括原文、译文和业务信息；

通过机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得翻译质量预测模型。

可选的，所述应用场景信息包括由目标语言表达的查询词；所述历史翻译记录集来源于搜索场景；所述业务处理结果包括：所述译文作为搜索结果时其是否被点击、或者所述译文标识的商品作为搜索结果时所述商品是否被购买；所述业务方面的翻译特征包括：所述译文是否包括所述查询词、所述查询词在所述译文中的位置、所述译文是否包括未翻译的词和所述译文包括的词数量的至少一者；其中所述目标语言是指所述译文所属的语言。

可选的，在所述获取已标注业务处理结果的历史翻译记录集之后，还包括：

可选的，所述机器学习算法采用逻辑回归算法，在学习获得所述翻译质量预测模型的过程中，采用如下优化目标：

相应的，本申请还提供一种构建翻译概率预测模型的装置，包括：

获取单元，用于获取已标注业务处理结果的历史翻译记录集；所述历史翻译记录包括原文、译文和业务信息；

特征抽取单元，用于针对各个历史翻译记录，根据所述历史翻译记录中的所述原文和译文，获取所述历史翻译记录中的语言方面的翻译特征；以及根据所述历史翻译记录中的所述业务信息，抽取所述历史翻译记录中的业务方面的翻译特征；

学习单元，用于通过机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得翻译质量预测模型。

可选的，还包括：

与现有技术相比，本申请具有以下优点:

本申请提供的基于统计的机器翻译方法、装置及电子设备，通过针对待翻译文本的各个候选译文，根据待翻译文本和候选译文，获取语言方面的翻译特征，以及根据业务信息获取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，计算各个候选译文的翻译质量得分；然后，选取预设数量的翻译质量得分排在高位的候选译文，作为待翻译文本的译文。由于本方法对候选译文的翻译质量进行评估时考虑了实际业务特点，加入了业务方面的翻译特征，因而不仅能够产生语言上准确的翻译结果，同时还能够满足实际业务目标，即：提高了翻译质量，从而达到了提高用户体验的效果。

附图说明

图1是本申请的基于统计的机器翻译方法实施例的流程图；

图2是本申请的基于统计的机器翻译方法实施例生成翻译质量预测模型的流程图；

图3是本申请的基于统计的机器翻译方法实施例识别与用户行为相关的噪音历史翻译记录的流程图；

图4是本申请的基于统计的机器翻译装置实施例的示意图；

图5是本申请的基于统计的机器翻译装置实施例的具体示意图；

图6是本申请的电子设备实施例的示意图；

图7是本申请的构建翻译质量预测模型的方法实施例的流程图；

图8是本申请的构建翻译质量预测模型的装置实施例的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了一种基于统计的机器翻译方法、装置及电子设备，以及一种构建翻译质量预测模型的方法、装置及电子设备。在下面的实施例中逐一进行详细说明。

本申请提供的基于统计的机器翻译方法，其核心的基本思想是：对候选译文的翻译质量进行评估时考虑实际业务特点，加入业务方面的翻译特征。由于利用业务方面的特有数据，并且不同业务下的翻译质量预测模型不同(即：不同业务下的特征权重不同)，因而不仅能够产生语言上准确的翻译结果，同时还能够满足实际业务目标，从而达到翻译结果与业务结合更好的效果。

请参考图1，其为本申请的基于统计的机器翻译方法实施例的流程图。所述方法包括如下步骤：

步骤S101：获取待翻译文本和业务信息。

本申请实施例所述的业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者。其中，应用场景信息包括应用场景下的特定信息，例如，搜索场景中用户输入的由目标语言表达的查询词；用户静态属性信息包括用户个人的基本信息，例如，性别、年龄、住址和兴趣爱好等；用户历史行为信息包括用户的历史行为和历史行为偏好等信息，例如，点击行为、收藏行为、购买行为、语言偏好、类别偏好和产品品牌偏好。

由于本申请实施例提供的基于统计的机器翻译方法，对候选译文的翻译质量进行评估时考虑了实际业务特点，加入了业务方面的翻译特征，因此，首先需要获取业务信息。上述用户静态属性信息和用户历史行为信息，既可以预先存储在运行本申请实施例提供的基于统计的机器翻译方法的本机中，也可以存储在其他计算机中；既可以以文本格式存储，也可以以数据库文件格式存储。上述这些不同的存储位置和存储格式，都只是具体实施方式的变更，都不偏离本申请的核心，因此都在本申请的保护范围之内。

本申请实施例提供的基于统计的机器翻译方法，应用在多语种电子商务网站中的搜索场景下。在该场景下，翻译质量得分对候选译文作为搜索结果时的搜索点击率将产生影响。搜索场景下所获取到的业务信息包括应用场景信息，在本实施例中，应用场景信息包括由目标语言表达的查询词。其中，目标语言是指译文所属的语言。本实施例搜索场景下的待翻译文本，采用如下步骤获取：1)获取用户输入的由所述目标语言表达的查询词；2)将所述由所述目标语言表达的查询词翻译为由源语言表达的查询词；所述源语言是指所述待翻译文本所属的语言；3)根据所述由源语言表达的查询词，检索获取所述待翻译文本。

1)获取用户输入的由所述目标语言表达的查询词。

在多语种的电子商务网站上的搜索场景下，用户输入的查询词是目标语言表达的查询词，用户需要查看的检索结果是目标语言表达的检索结果。

2)将所述由所述目标语言表达的查询词翻译为由源语言表达的查询词。

多语种的电子商务网站的后台数据库中存储的商品信息通常是由一种语言表达的，即：由源语言表达的商品信息，例如，中文商品信息。为了能够检索到符合查询词的商品，首先需要将目标语言表达的查询词翻译为源语言表达的查询词。

3)根据所述由源语言表达的查询词，检索获取所述待翻译文本。

当获取到源语言表达的查询词后，就可以到源语言表达的商品信息库中查找符合条件的商品信息，这些商品信息均为待翻译文本。例如，在多语种的电子商务网站上，用户输入查询词“Hat”后，当系统在中文商品库中检索到带有“帽子”的商品后，需要把每一个中文检索结果均翻译成英文，以供用户查看。

在获取到待翻译文本和业务信息后，就可以进入到下一个步骤，对待翻译文本进行解码。

步骤S103：对所述待翻译文本进行解码，生成所述待翻译文本的多个候选译文。

基于统计的机器翻译方法是指，基于统计信息从待翻译文本的多个候选译文中选取出翻译质量排在高位的预设数量的候选译文，作为最终的翻译结果。因此，首先需要对待翻译文本进行解码，生成待翻译文本的候选译文。

本申请实施例提供的基于统计的机器翻译方法，根据预先生成的翻译规则，对待翻译文本进行解码，生成所述待翻译文本的候选译文。所述的翻译规则是指，预先从给定的平行预料库中学习获得的翻译规则。翻译规则是机器翻译过程的基本转化单元，从平行预料库中学习获得翻译规则的过程，主要包括如下阶段：1)数据预处理；2)词对齐；3)短语抽取。在实际应用中，翻译规则既可以是以短语作为基本翻译单元、不包括句法信息的翻译规则，还可以是基于句法结构对翻译模型进行建模所获得的包括句法信息的翻译规则。上述这些翻译规则的不同方式，都只是具体实施方式的变更，都不偏离本申请的核心，因此都在本申请的保护范围之内。从平行预料库中学习获得翻译规则属于现有技术，本申请实施例对此不做详细说明。

在实际应用中，对待翻译文本进行解码，可以采用CYK解码算法、基于栈的解码算法或移进-归约解码算法等。上述这些解码算法在翻译性能和解码速度方面，各有不同的优缺点。其中，基于栈的解码算法和CYK解码算法一般具有较高的翻译性能，但解码速度较慢；而移进-归约解码算法往往可以达到较高的解码速度，但翻译性能较低。上述这些不同的解码方式，都只是具体实施方式的变更，都不偏离本申请的核心，因此都在本申请的保护范围之内。

步骤S105：针对各个候选译文，根据所述待翻译文本和所述候选译文，获取语言方面的翻译特征；以及根据所述业务信息，获取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，计算所述多个候选译文的翻译质量得分。

在生成待翻译文本的候选译文后，就可以针对各个候选译文，根据候选译文相关的翻译特征，以及预先生成的翻译质量预测模型，生成待翻译文本到各个候选译文的翻译质量得分。

要应用预先生成的翻译质量预测模型预测翻译质量得分，首先需要进行翻译特征的抽取。本申请实施例所述的翻译特征是指，对候选译文的翻译质量产生影响的、统计类型的信息，包括两类：语言方面的翻译特征和业务方面的翻译特征。其中，语言方面的翻译特征是根据待翻译文本和候选译文计算获取的；而业务方面的翻译特征是根据步骤S101获取到的业务信息抽取出的翻译特征。

本申请实施例所述的语言方面的翻译特征是指传统机器翻译中的翻译特征，包括：待翻译文本到候选译文的短语翻译概率、候选译文到待翻译文本的短语翻译概率、待翻译文本到候选译文的词翻译概率、候选译文到待翻译文本的词翻译概率、候选译文的句子概率和待翻译文本与候选译文调序与不调序的分类概率的至少一者。由于语言方面的翻译特征属于现有技术，因此，本申请实施例对此不做详细说明。

本申请实施例所述的业务方面的翻译特征包括应用场景特征、用户静态属性特征和用户历史行为特征的至少一者。其中，应用场景特征、用户静态属性特征和用户历史行为特征分别从应用场景信息、用户静态属性信息和用户历史行为信息中抽取。例如，用户静态属性特征包括性别、年龄、住址和兴趣爱好等；用户历史行为特征包括点击行为、收藏行为、购买行为、语言偏好、类别偏好和产品品牌偏好；应用场景特征包括搜索场景下的候选译文是否包括由目标语言表达的查询词、查询词在候选译文中的位置、候选译文是否包括未翻译的词或候选译文包括的词数量。

本申请实施例提供的基于统计的机器翻译方法，通过预先生成的翻译质量预测模型对各个候选译文的翻译质量进行预测，并根据候选译文的翻译质量预测值，对各个候选译文进行排序以供用户选择。通常，候选译文的翻译质量预测值越大，表示该候选译文的翻译质量越好。因此，要实施本申请实施例提供的方法，首先需要生成翻译质量预测模型。

本申请实施例所述的翻译质量预测模型是指，通过机器学习算法从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型。历史翻译记录集中每一条历史翻译记录是指与一次机器翻译相关的信息，包括原文、译文和业务信息。历史翻译记录中的业务信息与步骤S101中所述的业务信息属同一概念，即：历史上将原文翻译为译文时所参考的业务信息。所述的业务处理结果是指业务目标，业务处理结果与译文质量有关，译文质量决定了用户对译文的业务处理结果。当历史翻译记录集来源于搜索场景时，业务处理结果包括：译文作为搜索结果时该译文是否被点击、或者译文标识的商品作为搜索结果时该商品是否被购买。

请参考图2，其为本申请的基于统计的机器翻译方法实施例生成翻译质量预测模型的流程图。在本实施例中，通过机器学习算法从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型，包括如下步骤：

步骤S201：获取所述历史翻译记录集。

翻译质量预测模型是根据训练集生成的，训练集是指翻译特征和业务处理结果组成的向量集。要生成训练集，首先需要获取历史翻译记录集。

本申请实施例所述的历史翻译记录存储在业务处理日志中。所述的业务处理日志是指预先存储的与翻译相关的业务处理日志，即：根据预先存储的与翻译相关的业务处理日志，生成历史翻译记录集。在本实施例中，业务处理日志为多语种电子商务网站中商品搜索场景下产生的信息点击曝光日志，日志数据内容格式如表1所示：

序号	名称	说明
			1	Query	搜索查询词
2	Offer_ID	商品标识符
			3	Title	商品名称
4	Rank	商品曝光的展示位置
			5	Is_Click	商品是否被点击
……	……	……

表1日志数据内容格式

由表1可见，信息点击曝光日志包括如下信息：查询词、曝光商品的标识符Offer_ID、显示给用户的曝光商品的名称Title、该曝光商品的展示位置、该曝光商品是否被用户点击(即：业务处理结果)等字段。根据信息点击曝光日志，能够获取历史翻译记录中的各个数据，包括：1)通过商品标识符Offer_ID，能够获取由源语言表达的商品名称，即：历史翻译记录中原文；2)商品名称Title，即：历史翻译记录中译文；3)查询词Query，即：历史翻译记录中业务信息；4)商品是否被点击Is_Click，即：业务处理结果。

在实际应用中，业务处理日志中可能包括一些噪音数据，即：噪音历史翻译记录。本申请实施例所述的噪音历史翻译记录包括：与用户行为无关的噪音历史翻译记录或与用户行为相关的历史翻译记录。其中，与用户行为无关的噪音历史翻译记录包括：搜索场景下通过网络爬虫、网络欺诈等行为产生的噪音历史翻译记录。此外，搜索场景中符合查询词的检索结果通常都会被显示在检索结果列表页面中，用户对检索结果的操作(即：业务处理结果)与检索结果的显示位置有关。例如，当用户快速从检索结果列表页面的最上方拉到最下方时，显示在列表中间位置的检索结果实际上并没有被用户真正浏览到，因而这部分检索结果不算真正的曝光，更不会被用户点击。然而，这部分检索结果通常会被记录在业务处理日志中，它们所对应的业务处理结果为“未点击”。可见，记录在业务处理日志中的这部分业务处理数据并非真实有效的数据，而是一种典型的噪音数据，本申请实施例将其称为与用户行为相关的噪音历史翻译记录。在实际应用中，如果不剔除上述两种噪音历史翻译记录，则将降低作为训练样本的历史翻译记录集的数据质量，从而降低生成的翻译质量预测模型的准确性。

为此，在从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型之前，还包括：通过预设的噪音数据过滤算法，从所述历史翻译记录集中剔除噪音历史翻译记录。通过该步骤能够提高训练样本的数据质量，从而提高翻译质量预测模型的准确度。

对于上述用户行为无关的噪音历史翻译记录，根据噪音数据的产生原因，可以选择的噪音数据过滤算法包括反欺诈、反爬虫等算法。对于上述搜索场景中的与用户行为相关的噪音历史翻译记录，所述通过预设的噪音数据过滤算法，从所述历史翻译记录集中剔除噪音历史翻译记录，包括如下步骤：1)根据预设的浏览概率预测模型，识别出所述与用户行为相关的噪音历史翻译记录；2)删除被识别为所述与用户行为相关的噪音历史翻译记录的历史翻译记录。

1)根据预设的浏览概率预测模型，识别出所述与用户行为相关的噪音历史翻译记录。

本申请实施例提供的基于统计的机器翻译方法，搜索场景中用户对检索结果的操作，不仅与商品名称的译文质量有关，还与译文的显示位置有关，例如，用户通常习惯于自上而下、自左向右的浏览检索结果，因此显示在上面位置的译文更容易被用户选取，而显示在下面位置的译文被用户选取的可能性逐步减小。为此，可以采用概率统计模型对用户行为进行建模和预测，模拟人的浏览模式，以去除显示位置对业务处理结果的影响，从而提高训练数据的质量，进而提高翻译质量预测模型。

本申请实施例根据预设的浏览概率预测模型对检索结果的排列位置进行归一化运算，以去除排列位置对业务处理结果的影响。常见的浏览概率预测模型包括DCM(Dependent Click Model，依赖点击模型)和BBM(Bayesian BrowsingModel，贝叶斯浏览模型)等模型。以DCM模型为例，该模型如表达式(1)所示：

其中，E表示是否浏览(Examination)，C表示是否点击(Click)。该模型的物理意义是：当第i个位置被浏览和点击，那么第i+1个位置被浏览到的概率为λ_i；当第i个位置被浏览而未被点击，那么第i+1个位置被浏览到的概率为1。从模型表达式(1)中可以看到，DCM模型存在很强的假设性，基于该模型对检索结果的显示位置做归一化处理将必然导致误差。

作为一种优选实施方式，本申请实施例所采用的浏览概率预测模型为：根据用户在检索结果网页的停留时间，判断检索结果是否真正被用户浏览。采用该模型能够避免对浏览模式的假设，从而达到提高浏览概率预测准确度的效果。

请参考图3，其为本申请的基于统计的机器翻译方法实施例识别与用户行为相关的噪音历史翻译记录的流程图。在本实施例中，根据预设的浏览概率预测模型，识别出所述与用户行为相关的噪音历史翻译记录，包括如下步骤：

步骤S301：针对待识别历史翻译记录，获取用户在检索结果页面中的停留时间，作为用户停留时间；所述检索结果页面包括所述待识别历史翻译记录中的译文。

本申请实施例所述的待识别历史翻译记录包括原文和译文等信息。针对每一条待识别的历史翻译记录，根据用户在包括该待识别历史翻译记录中译文的检索结果页面中的实际停留时间，识别待识别历史翻译记录中的译文是否被真正浏览过。在本申请实施例的业务处理日志中，记录下用户在每个检索结果网页的停留时间。

步骤S303：判断所述用户停留时间是否大于预设的停留时间阈值；若否，则判定所述待识别历史翻译记录是所述与用户行为相关的噪音历史翻译记录。

在获取到用户停留时间后，并根据基于大量数据统计得到的停留时间阈值，判断用户停留时间是否大于停留时间阈值，该模型如表达式(2)所示：

其中，t表示用户停留时间，T为停留时间阈值。当t＞T时，表明用户在检索结果页面停留了足够长的时间，真正浏览到了该页面所列出的检索结果，否则该页面所列出的检索结果就没有真正曝光，这部分检索结果所对应的业务处理结果为噪音历史翻译记录。例如，当用户快速从搜索结果列表页面的最上方拉到最下方时，中间的检索结果就没有被用户浏览到，不算真正的曝光，由此产生的历史翻译记录并不是真正有效的历史翻译记录。

2)删除被识别为所述与用户行为相关的噪音历史翻译记录的历史翻译记录。

根据上述预设的浏览概率预测模型，识别出与用户行为相关的噪音历史翻译记录之后，就可以将这部分噪音数据删除，从而提高训练数据的质量，进而提高翻译质量预测模型。

通过上述步骤准备好历史翻译记录集后，就可以从各个历史翻译记录中抽取出语言方面的翻译特征和业务方面的翻译特征。

步骤S203：针对各个历史翻译记录，根据所述历史翻译记录中的所述原文和译文，获取所述历史翻译记录中的语言方面的翻译特征；以及根据所述历史翻译记录中的所述业务信息，抽取所述历史翻译记录中的业务方面的翻译特征。

步骤S203与上述步骤S105中特征抽取部分相对应，两个步骤相同之处此处不再赘述，相关说明详见步骤S105部分。

步骤S205：通过所述机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得所述翻译质量预测模型。

通过步骤S203准备好作为训练集的、由翻译特征和业务处理结果组成的向量集后，就可以根据训练样本对预先选取的翻译质量预测模型进行训练，当达到优化目标后，翻译质量预测模型训练完毕。

在搜索场景下，业务处理结果为点击或为点击，该数据是一种离散的分类数据。因此，本申请实施例所述的机器学习算法包括逻辑回归算法、支持向量机算法或迭代决策树算法等。不同算法生成的翻译质量预测模型的准确度不同，不同算法的计算复杂度也不相同，在实际应用中，根据具体应用需求，可以选择任意一种机器学习算法生成翻译质量预测模型。

在本实施例中，采用逻辑回归算法学习翻译质量预测模型，即：预测模型为逻辑回归模型。在基于逻辑回归的翻译质量预测模型中，每个翻译特征均有各自的权重，这些权重用于控制不同翻译特征对待翻译文本到候选译文的翻译质量的影响力。训练翻译质量预测模型的过程也就是调整特征权重的过程。本申请实施例的业务处理结果为点击或者未点击，根据步骤S203提取出的各个翻译特征，采用最大似然方法求解翻译质量预测模型中各个参数的权重。基于最大似然求解模型参数的最优化目标关系式如下所示：

其中，P(y_k|w，fea_k)为搜索点击率；y_k表示历史翻译记录k的业务处理结果，如果历史翻译记录k中的译文在一次曝光中被点击，那么y_k＝1，否则y_k＝0；w为翻译质量预测模型中各个翻译特征的特征权重组成的权重向量；fea_k表示从历史翻译记录k中抽取得到的翻译特征。该表达式的含义为：以最大化各个历史翻译记录的正确业务处理结果概率的连乘值作为优化目标，调整翻译质量预测模型中各个翻译特征的特征权重。

本申请实施例在多语种电子商务网站上的商品搜索场景下，以逻辑回归模型计算预测搜索点击率，生成的翻译质量预测模型的表达式如下式所示：

其中f_i是语言方面的翻译特征，f_j是业务方面的翻译特征。

通过上述步骤训练生成翻译质量预测模型。需要说明的是，不同目标语言对应不同的翻译质量预测模型，不同翻译质量预测模型的翻译特征及特征权重均可能不同。对待翻译文本进行翻译时，通过与目标语言对应的翻译质量预测模型，对候选译文的翻译质量得分进行预测，例如，目标语言为英语和俄语所对应的翻译质量预测模型是不同的，其中英语的翻译质量预测模型中业务方面的翻译特征可能包括“译文是否包括查询词”，而俄语的翻译质量预测模型中业务方面的翻译特征可能包括“查询词是否在译文中的靠前位置处”，不同语言下的不同业务方面翻译特征可能与不同语言用户的习惯有关。在实际应用中，需要根据目标语言的历史翻译记录集，生成与目标语言对应的翻译质量预测模型，例如，根据译文为英语的历史翻译记录集，生成与英语对应的翻译质量预测模型；根据译文为俄语的历史翻译记录集，生成与俄语对应的翻译质量预测模型。

通过上述步骤训练生成翻译质量预测模型后，就可以应用该模型计算各个候选译文的翻译质量得分。具体的，将抽取出的各个翻译特征作为预测模型的参数输入到模型中，通过翻译质量预测模型计算获取待翻译文本到候选译文的翻译质量得分的预测值。

步骤S107：选取预设数量的所述翻译质量得分排在高位的候选译文，作为所述待翻译文本的译文。

通过步骤S105计算获取到待翻译文本到各个候选译文的翻译质量得分的预测值之后，本步骤将选取预设数量的翻译质量得分排在高位的候选译文作为待翻译文本的译文，以供用户选择。

在上述的实施例中，提供了一种基于统计的机器翻译方法，与之相对应的，本申请还提供一种基于统计的机器翻译装置。该装置是与上述方法的实施例相对应。

请参看图4，其为本申请的基于统计的机器翻译装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种基于统计的机器翻译装置，包括：

获取单元101，用于获取待翻译文本和业务信息；

解码单元103，用于对所述待翻译文本进行解码，生成所述待翻译文本的多个候选译文；

特征抽取和预测单元105，用于针对各个候选译文，根据所述待翻译文本和所述候选译文，获取语言方面的翻译特征；以及根据所述业务信息，抽取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，计算所述多个候选译文的翻译质量得分；

选取单元107，用于选取预设数量的所述翻译质量得分排在高位的候选译文，作为所述待翻译文本的译文。

所述获取单元101包括：

请参看图5，其为本申请的基于统计的机器翻译装置实施例的具体示意图。可选的，还包括：

训练单元201，用于通过机器学习算法，从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型；所述历史翻译记录包括原文、译文和业务信息。

可选的，还包括：

可选的，所述训练单元201包括：

获取子单元2011，用于获取所述历史翻译记录集；

特征抽取子单元2013，用于针对各个历史翻译记录，根据所述历史翻译记录中的所述原文和译文，获取所述历史翻译记录中的语言方面的翻译特征；以及根据所述历史翻译记录中的所述业务信息，抽取所述历史翻译记录中的业务方面的翻译特征；

学习子单元2015，用于通过所述机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得所述翻译质量预测模型。

请参考图6，其为本申请的电子设备实施例的示意图。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：显示器601；处理器602；以及存储器603，所述存储器603被配置成存储基于统计的机器翻译装置，所述基于统计的机器翻译装置被所述处理器602执行时，包括如下步骤：获取待翻译文本和业务信息；对所述待翻译文本进行解码，生成所述待翻译文本的多个候选译文；针对各个候选译文，根据所述待翻译文本和所述候选译文，获取语言方面的翻译特征；以及根据所述业务信息，抽取业务方面的翻译特征；并根据获取的语言方面的翻译特征和业务方面的翻译特征，通过预先生成的翻译质量预测模型，计算所述多个候选译文的翻译质量得分；选取预设数量的所述翻译质量得分排在高位的候选译文，作为所述待翻译文本的译文。

本申请还提供一种构建翻译质量预测模型的方法，其核心的基本思想为：通过机器学习算法，从已标注业务处理结果的历史翻译记录集中学习出翻译质量预测模型；其中历史翻译记录包括原文、译文和业务信息。由于本方法的训练目标为实际的业务处理目标，所依据的翻译特征不仅包括语言方面的翻译特征，还包括业务方面的翻译特征，因而能够达到生成的翻译质量预测模型更适用于实际业务特点的效果。

请参考图7，其为本申请的构建翻译质量预测模型的方法实施例的流程图。由于本实施例与上述基于统计的机器翻译方法实施例中翻译质量预测模型的生成部分相对应，所以描述得比较简单，相关之处参见上述实施例一的部分说明即可。下述描述的实施例仅仅是示意性的。本实施例的构建翻译质量预测模型的方法包括如下步骤：

步骤S701：获取已标注业务处理结果的历史翻译记录集；所述历史翻译记录包括原文、译文和业务信息。

步骤S701与实施例一中步骤S201相对应，相同之处此处不再赘述，相关说明详见步骤S201部分。

本申请实施例所述的业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者。所述的应用场景信息包括由目标语言表达的查询词；所述历史翻译记录集来源于搜索场景；所述业务处理结果包括：所述译文作为搜索结果时其是否被点击、或者所述译文标识的商品作为搜索结果时所述商品是否被购买；所述业务方面的翻译特征包括：所述译文是否包括所述查询词、所述查询词在所述译文中的位置、所述译文是否包括未翻译的词和所述译文包括的词数量的至少一者；其中所述目标语言是指所述译文所属的语言。

在本实施例中，所述历史翻译记录集采用如下方式生成：根据预先存储的与翻译相关的业务处理日志，生成所述历史翻译记录集。

优选的，在获取已标注业务处理结果的历史翻译记录集之后，还包括：通过预设的噪音数据过滤算法，从所述历史翻译记录集中剔除噪音历史翻译记录。

步骤S703：针对各个历史翻译记录，根据所述历史翻译记录中的所述原文和译文，获取所述历史翻译记录中的语言方面的翻译特征；以及根据所述历史翻译记录中的所述业务信息，抽取所述历史翻译记录中的业务方面的翻译特征。

步骤S703与实施例一中步骤S203相对应，相同之处此处不再赘述，相关说明详见步骤S203部分。

本申请实施例所述的语言方面的翻译特征包括：所述原文到所述译文的短语翻译概率、所述译文到所述原文的短语翻译概率、所述原文到所述译文的词翻译概率、所述译文到所述原文的词翻译概率、所述译文的句子概率和所述原文与所述译文调序与不调序的分类概率的至少一者。

步骤S705：通过机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得翻译质量预测模型。

步骤S705与实施例一中步骤S205相对应，相同之处此处不再赘述，相关说明详见步骤S205部分。

本申请实施例所述的机器学习算法包括逻辑回归算法、SVM算法或迭代决策树算法。在本实施例中，所述机器学习算法采用逻辑回归算法，在学习获得所述翻译质量预测模型的过程中，采用如下优化目标：

需要说明的是，不同目标语言对应不同的翻译质量预测模型；根据目标语言的历史翻译记录集，生成目标语言的所述翻译质量预测模型；其中目标语言是指所述译文所属的语言。在上述的实施例中，提供了一种构建翻译概率预测模型的方法，与之相对应的，本申请还提供一种构建翻译概率预测模型的装置。该装置是与上述方法的实施例相对应。

请参看图8，其为本申请的构建翻译概率预测模型的装置实施例的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例的一种构建翻译概率预测模型的装置，包括：

获取单元801，用于获取已标注业务处理结果的历史翻译记录集；所述历史翻译记录包括原文、译文和业务信息；

特征抽取单元803，用于针对各个历史翻译记录，根据所述历史翻译记录中的所述原文和译文，获取所述历史翻译记录中的语言方面的翻译特征；以及根据所述历史翻译记录中的所述业务信息，抽取所述历史翻译记录中的业务方面的翻译特征；

学习单元805，用于通过机器学习算法，根据获取的各个历史翻译记录中的语言方面的翻译特征、业务方面的翻译特征和所述业务处理结果，学习获得翻译质量预测模型。

可选的，还包括：

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种基于统计的机器翻译方法，其特征在于，包括：

获取待翻译文本和业务信息；

2.根据权利要求1所述的基于统计的机器翻译方法，其特征在于，所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者；所述业务方面的翻译特征包括应用场景特征、用户静态属性特征和用户历史行为特征的至少一者。

3.根据权利要求2所述的基于统计的机器翻译方法，其特征在于，所述基于统计的机器翻译方法应用在搜索场景，所述翻译质量得分对所述候选译文作为搜索结果时的搜索点击率产生影响；所述应用场景信息包括由目标语言表达的查询词；所述应用场景特征包括：所述候选译文是否包括所述查询词、所述查询词在所述候选译文中的位置、所述候选译文是否包括未翻译的词和所述候选译文包括的词数量的至少一者；其中，所述目标语言是指所述候选译文所属的语言。

4.根据权利要求3所述的基于统计的机器翻译方法，其特征在于，所述待翻译文本，采用如下步骤获取：

获取用户输入的由所述目标语言表达的查询词；

5.根据权利要求1所述的基于统计的机器翻译方法，其特征在于，通过机器学习算法，从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型；所述历史翻译记录包括原文、译文和业务信息。

6.根据权利要求5所述的基于统计的机器翻译方法，其特征在于，所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者。

7.根据权利要求6所述的基于统计的机器翻译方法，其特征在于，所述历史翻译记录集来源于搜索场景；所述业务处理结果包括：所述译文作为搜索结果时其是否被点击、或者所述译文标识的商品作为搜索结果时所述商品是否被购买；所述应用场景信息包括由目标语言表达的查询词；其中所述目标语言是指所述译文所属的语言。

8.根据权利要求5所述的基于统计的机器翻译方法，其特征在于，不同目标语言对应不同的所述翻译质量预测模型；根据所述目标语言的所述历史翻译记录集，生成所述目标语言的所述翻译质量预测模型；其中所述目标语言是指所述译文所属的语言。

9.根据权利要求5所述的基于统计的机器翻译方法，其特征在于，在从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型之前还包括：

10.根据权利要求5所述的基于统计的机器翻译方法，其特征在于，所述通过机器学习算法，从已标注业务处理结果的历史翻译记录集中学习出所述翻译质量预测模型，包括：

获取所述历史翻译记录集；

11.根据权利要求10所述的基于统计的机器翻译方法，其特征在于，所述机器学习算法采用逻辑回归算法；在学习获得所述翻译质量预测模型的过程中，采用如下优化目标：

\max_{w} {\underset{k}{Π} P (y_{k} | w, {fea}_{k})}

12.一种基于统计的机器翻译装置，其特征在于，包括：

获取单元，用于获取待翻译文本和业务信息；

13.根据权利要求12所述的基于统计的机器翻译装置，其特征在于，所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者；所述业务方面的翻译特征包括应用场景特征、用户静态属性特征和用户历史行为特征的至少一者；

所述获取单元包括：

14.根据权利要求12所述的基于统计的机器翻译装置，其特征在于，还包括：

15.根据权利要求14所述的基于统计的机器翻译装置，其特征在于，还包括：

16.根据权利要求14所述的基于统计的机器翻译装置，其特征在于，所述训练单元包括：

获取子单元，用于获取所述历史翻译记录集；

17.一种电子设备，其特征在于，包括：

显示器；

处理器；以及

18.一种构建翻译质量预测模型的方法，其特征在于，包括：

19.根据权利要求18所述的构建翻译概率预测模型的方法，其特征在于，所述业务信息包括应用场景信息、用户静态属性信息和用户历史行为信息的至少一者。

20.根据权利要求19所述的构建翻译概率预测模型的方法，其特征在于，所述应用场景信息包括由目标语言表达的查询词；所述历史翻译记录集来源于搜索场景；所述业务处理结果包括：所述译文作为搜索结果时其是否被点击、或者所述译文标识的商品作为搜索结果时所述商品是否被购买；所述业务方面的翻译特征包括：所述译文是否包括所述查询词、所述查询词在所述译文中的位置、所述译文是否包括未翻译的词和所述译文包括的词数量的至少一者；其中所述目标语言是指所述译文所属的语言。

21.根据权利要求18所述的构建翻译概率预测模型的方法，其特征在于，不同目标语言对应不同的所述翻译质量预测模型；根据所述目标语言的所述历史翻译记录集，生成所述目标语言的所述翻译质量预测模型；其中所述目标语言是指所述译文所属的语言。

22.根据权利要求18所述的构建翻译概率预测模型的方法，其特征在于，在所述获取已标注业务处理结果的历史翻译记录集之后，还包括：

23.根据权利要求18所述的构建翻译概率预测模型的方法，其特征在于，所述机器学习算法采用逻辑回归算法，在学习获得所述翻译质量预测模型的过程中，采用如下优化目标：

\max_{w} {\underset{k}{Π} P (y_{k} | w, {fea}_{k})}

24.一种构建翻译概率预测模型的装置，其特征在于，包括：

25.根据权利要求24所述的构建翻译概率预测模型的装置，其特征在于，还包括：