CN110442878A

CN110442878A - 翻译方法、机器翻译模型的训练方法、装置及存储介质

Info

Publication number: CN110442878A
Application number: CN201910533381.2A
Authority: CN
Inventors: 邵晨泽; 张金超; 孟凡东; 冯洋; 周杰
Original assignee: Institute of Computing Technology of CAS; Tencent Cyber Tianjin Co Ltd
Current assignee: Institute of Computing Technology of CAS; Tencent Cyber Tianjin Co Ltd
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-11-12
Anticipated expiration: 2039-06-19
Also published as: WO2020253648A1; CN110442878B

Abstract

本申请公开了一种翻译方法、机器翻译模型的训练方法、装置及存储介质，涉及人工智能领域，该方法包括：获取标注有参考翻译结果的样本语句；将样本语句输入待训练的机器翻译模型，得到样本语句的样本翻译结果，机器翻译模型为模型参数待调整的非自回归的模型；根据参考翻译结果计算词语翻译结果的梯度估计值，其中，梯度估计值是通过奖赏值计算得到的；根据梯度估计结果对机器翻译模型的模型参数进行调整。通过奖赏值计算梯度估计值，并根据梯度估计值对机器翻译模型的模型参数进行调整，以奖赏值为调整参考数据得到梯度估计值对模型参数进行调整，从而实现对机器翻译模型的序列级训练，提高训练后的机器翻译模型的翻译准确度。

Description

翻译方法、机器翻译模型的训练方法、装置及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种翻译方法、机器翻译模型的训练方法、装置及存储介质。

背景技术

机器翻译是通过计算机将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式，通常，该机器翻译是通过训练好的机器学习模型对句子进行翻译，示意性的，机器学习模型通过大量的翻译语料样本进行训练后，用户将中文句子“房价持续增长”输入该机器学习模型后，输出得到英文翻译“The housing prices continued to rise.”。

相关技术中，通过非自回归模型实现速度要求较高的机器翻译过程，该非自回归模型的模型参数是通过词级别的交叉熵损失函数进行训练的，该交叉熵损失函数对样本语句中每个词所在位置的生成结果进行独立评价，并根据对每个位置的评价对非自回归模型的参数进行调整，从而实现对非自回归模型的训练。

然而，由于通过交叉熵损失函数对非自回归模型进行训练的过程中，每个位置的译文单词的生成和评价都是独立进行的，非自回归模型难以捕捉不同位置译文间的序列依赖关系，生成的译文通常通顺度较低，翻译效果较差。

发明内容

本申请实施例提供了一种翻译方法、机器翻译模型的训练方法、装置及存储介质，可以解决非自回归模型难以捕捉不同位置译文间的序列依赖关系，生成的译文通常通顺度较低，翻译效果较差的问题。所述技术方案如下：

一方面，提供了一种基于机器翻译模型的翻译方法，所述方法包括：

获取源端语句，所述源端语句为第一自然语言的语句；

将所述源端语句输入机器翻译模型，所述机器翻译模型为非自回归的模型，所述机器翻译模型是通过标注有参考翻译结果的样本语句训练得到的，其中，训练过程是通过将所述样本语句输入待训练的所述机器翻译模型后，输出由词语翻译结果连接得到的样本翻译结果，并根据参考翻译结果计算样本翻译结果的梯度估计结果后，根据梯度估计结果对机器翻译模型的模型参数进行调整实现的，所述词语翻译结果的梯度估计值是通过奖赏值计算得到的；

通过所述机器翻译模型对所述源端语句进行翻译，并输出得到目标端语句，所述目标端语句为第二自然语言的语句。

另一方面，提供了一种机器翻译模型的训练方法，所述方法包括：

获取样本语句，所述样本语句为标注有参考翻译结果的语句；

将所述样本语句输入待训练的机器翻译模型，得到所述样本语句的样本翻译结果，所述样本翻译结果是将所述样本语句中的词语翻译结果连接得到的，所述机器翻译模型为模型参数待调整的非自回归的模型；

根据所述参考翻译结果计算所述词语翻译结果的梯度估计值，得到所述样本翻译结果的梯度估计结果，其中，所述词语翻译结果的所述梯度估计值是通过奖赏值计算得到的；

根据所述样本翻译结果的梯度估计结果对所述机器翻译模型的所述模型参数进行调整。

另一方面，提供了一种基于机器翻译模型的翻译装置，所述装置包括：

获取模块，用于获取源端语句，所述源端语句为第一自然语言的语句；

输入模块，用于将所述源端语句输入机器翻译模型，所述机器翻译模型为非自回归的模型，所述机器翻译模型是通过标注有参考翻译结果的样本语句训练得到的，其中，训练过程是通过将所述样本语句输入待训练的所述机器翻译模型后，输出由词语翻译结果连接得到的样本翻译结果，并根据参考翻译结果计算样本翻译结果的梯度估计结果后，根据梯度估计结果对机器翻译模型的模型参数进行调整实现的，所述词语翻译结果的梯度估计值是通过奖赏值计算得到的；

输出模块，用于通过所述机器翻译模型对所述源端语句进行翻译，并输出得到目标端语句，所述目标端语句为第二自然语言的语句。

另一方面，提供了一种机器翻译模型的训练装置，所述装置包括：

获取模块，用于获取样本语句，所述样本语句为标注有参考翻译结果的语句；

输入模块，用于将所述样本语句输入待训练的机器翻译模型，得到所述样本语句的样本翻译结果，所述样本翻译结果是将所述样本语句中的词语翻译结果连接得到的，所述机器翻译模型为模型参数待调整的非自回归的模型；

确定模块，用于根据所述参考翻译结果计算所述词语翻译结果的梯度估计值，得到所述样本翻译结果的梯度估计结果，其中，所述词语翻译结果的所述梯度估计值是通过奖赏值计算得到的；

调整模块，用于根据所述样本翻译结果的梯度估计结果对所述机器翻译模型的所述模型参数进行调整。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于机器翻译模型的翻译方法或机器翻译模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中提供的基于机器翻译模型的翻译方法或机器翻译模型的训练方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述本申请实施例中提供的基于机器翻译模型的翻译方法或机器翻译模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过在训练过程中，通过奖赏值计算梯度估计值，并根据梯度估计值对机器翻译模型的模型参数进行调整，以奖赏值为调整参考数据得到梯度估计值对模型参数进行调整，从而实现对机器翻译模型的序列级训练，并提高训练过程的稳定性，提高训练后的机器翻译模型的翻译准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施立体提供的自回归机器翻译模型的结构框图；

图2是本申请一个示例性实施例提供的非自回归机器翻译模型的结构框图；

图3是本申请一个示例性实施例提供的机器翻译模型的训练方法的流程图；

图4是本申请另一个示例性实施例提供的机器翻译模型的训练方法的流程图；

图5是本申请另一个示例性实施例提供的机器翻译模型的训练方法的流程图；

图6是本申请一个示例性实施例提供的基于机器翻译模型的翻译方法的流程图；

图7是本申请一个示例性实施例提供的机器翻译模型在测试过程中的实验数据示意图；

图8是本申请另一个示例性实施例提供的机器翻译模型在测试过程中的实验数据示意图；

图9是本申请另一个示例性实施例提供的机器翻译模型在测试过程中的实验数据示意图；

图10是本申请一个示例性实施例提供的机器翻译模型的训练装置的结构框图；

图11是本申请一个示例性实施例提供的基于机器翻译模型的翻译装置的结构框图；

图12是本申请另一个示例性实施例提供的基于机器翻译模型的翻译装置的结构框图；

图13是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

机器翻译：是指通过计算机将一种自然语言的句子翻译成另一种自然语言的句子的翻译方式。通常，该机器翻译是通过训练好的机器翻译模型对句子进行翻译，示意性的，通过大量的翻译语料样本对机器翻译模型进行训练，该翻译语料样本中包括多组第一自然语言的语料和第二自然语言的语料之间的对应关系，每个第一自然语言的语料对应一个第二自然语言的语料作为翻译结果，训练完成后，用户将第一自然语言的源端句子输入该机器翻译模型后，输出得到第二自然语言的目标端句子。示意性的，将中文句子翻译为英文句子，中文句子即为源端句子，英文句子即为目标端句子；比如，机器翻译模型将句子“我必须解决这个问题。”翻译为句子“I must solve the problem.”，则句子“我必须解决这个问题。”是源端句子，句子“I must solve the problem.”是目标端句子。

可选地，上述机器翻译模型可以是自回归的模型，也可以是非自回归的模型，其中，自回归在机器翻译中是指根据前文的翻译结果确定当前词汇翻译结果的方式，也即，第i个时刻的变量的预测结果是通过第i-1，i-2，……，i-k个时刻等前k个时刻的该变量的表现预测得到的，这一特性就是自回归特性。相对的，非自回归是指独立确定每个词汇的翻译结果的方式。

可选地，该机器翻译模型中包括模型参数，该模型参数通过在对机器翻译模型的训练过程中进行调整改进从而实现对机器翻译模型的训练。

示意性的，图1是本申请一个示例性实施例提供的自回归机器翻译模型的结构框图，如图1所示，该自回归机器翻译模型100通过注意力机制对序列进行建模，该自回归机器翻译模型100包括编码器110和解码器120，其中，编码器110中包括自注意力模块111和前馈神经网络模块112；解码器120中包括自注意力模块121、源端注意力模块122以及前馈神经网络模块123；该自回归机器翻译模块100中还包括特征映射网络130和softmax网络140，输入特征并通过编码器110进行编码以及通过解码器120进行解码后，通过特征映射网络130进行特征映射，并通过softmax网络140确定输出的翻译结果。然而，受自回归特性的限制，自回归机器翻译模型100需要逐词进行解码，因此翻译速度较慢。

示意性的，图2是本申请一个示例性实施例提供的非自回归机器翻译模型的结构框图，如图2所示，该非自回归机器翻译模型200用于对每个位置的词语的概率分布独立建模。该非自回归机器翻译模型200中包括编码器210和解码器220，其中，编码器包括自注意力模块211和前馈神经网络模块212，解码器220中包括自注意力模块221、位置注意力模块222、源端注意力模块223和前馈神经网络模块224；通过将每个位置的词汇输入编码器210进行编码，以及输入解码器220进行解码后，通过softmax层230得到每个位置的词汇对应的翻译结果。非自回归机器翻译模型200的并行特性决定较快的翻译速度，而非自回归机器翻译模型200在翻译质量上由于对每个词语的翻译评价都是独立进行的，故通顺度较低，翻译准确度较低。

本申请实施例中，以该机器翻译模型实现为非自回归模型为例进行说明。

示意性的，本申请涉及的应用场景至少包括如下场景：

服务器中包括机器翻译模型，通过服务器对该机器翻译模型进行训练。

机器翻译模型在训练过程中是通过标注有参考翻译结果的样本语句进行训练的，可选地，该样本语句为第一自然语言的语句，该参考翻译结果中包括第二自然语言的语句，该第二自然语言的语句为对该样本语句进行翻译后得到的与该样本语句的语义相同的语句。

该机器翻译模型中包括模型参数，通过机器翻译模型对样本语句进行翻译后，得到样本翻译结果，其中，该样本翻译结果是通过机器翻译模型对样本语句中的词汇进行词汇翻译后，将词语翻译结果按序连接得到的。计算该样本翻译结果的梯度估计值后，根据该梯度估计值对模型参数进行调整，其中，样本翻译结果中的词语翻译结果的梯度估计值是通过奖赏值计算得到的。

示意性的，服务器中包括待训练的机器翻译模型，该机器翻译模型为非自回归的模型，服务器获取样本语句“房价正在持续上涨”以及该样本语句的参考翻译结果“Thehousing prices continued to rise.”，通过机器翻译模型对该样本语句进行翻译后，得到该样本语句的样本翻译结果，该样本翻译结果中包括“房价”、“正在持续”、“上涨”个字对应的词语翻译结果。根据参考翻译结果以及奖赏值计算得到每个词语翻译结果对应的梯度估计值，也即根据“housing prices”计算得到词语“房价”的词语翻译结果对应的梯度估计值、根据“continued”计算得到词语“正在持续”的词语翻译结果对应的梯度估计值，以及根据“rise”计算得到词语“上涨”的词语翻译结果对应的梯度估计值，结合每个词语翻译结果的梯度估计值得到该样本翻译结果的梯度估计结果，并通过梯度翻译结果对机器翻译模型的模型参数进行调整，从而实现对机器翻译模型的单次训练。

可选地，在上述单次训练完成后，服务器还可以获取另一样本语句以及该另一样本语句对应的参考翻译结果，并通过上述训练过程对该机器翻译模型进行迭代训练；通过样本语句对机器翻译模型的迭代训练次数可以是由测试人员设置的，也可以是根据机器翻译模型的训练效果确定得到的，本申请实施例对此不加以限定。

可选地，训练后的该机器翻译模型可以应用于如下场景中的至少一种：

1、该机器翻译模型应用于即时通信程序中，即时通信程序能够实现实时语音翻译；如：通过上述机器翻译模型能够实现即时通信程序语音/视频过程中的实时语音翻译；

2、该机器翻译模型应用于视频播放程序中，视频播放程序能够在视频播放过程中实现对第一自然语言的字幕进行实时翻译，得到第二自然语言的字幕；

3、该机器翻译模型应用于文档翻译软件中，可以用于实现对文档类内容快速准确的翻译；

4、该机器翻译模型应用于文章资讯阅读中，可以用于实现对国外资讯、文章或将自有内容进行翻译；

5、该机器翻译模型应用于外文网站翻译中，可以用于实现对国外电商网站、海淘服务网站的便捷访问；

6、该机器翻译模型应用于电子词典中，能够实现各种语言的快速准确的翻译查询；

7、该机器翻译模型应用于翻译机等实时翻译工具时，用户能够通过该实时翻译工具实现快速应答，如：在跨国会议场景中、境外旅游中。值得注意的是，上述应用场景仅为示意性的举例，在实际操作中，通过上述机器翻译模型的训练方法对机器翻译模型进行训练的应用场景都可以使用本申请实施例中提供的机器翻译模型的训练方法，本申请实施例对此不加以限定。

图3是本申请一个示例性实施例提供的机器翻译模型的训练方法的流程图，以该方法应用于服务器中为例进行说明，如图3所示，该方法包括：

步骤301，获取样本语句，该样本语句为标注有参考翻译结果的语句。

可选地，该样本语句为第一自然语言的语句，该参考翻译结果为第二自然语言的语句。示意性的，以第一自然语言为中文，第二自然语言为英语为例进行说明，该样本语句包括“房价正在持续上涨”，而与该样本语句对应的参考翻译结果为“The housing pricescontinued to rise.。其中，样本语句中的每个词汇与参考翻译结果中的单词或短语对应，如：词汇“房价”与短语“the housing prices”对应，词汇“正在持续”与单词“continued”对应，词汇“上涨”与短语“to rise”对应。

可选地，服务器获取p个样本语句，并通过该p个样本语句迭代对机器翻译模型进行训练。

可选地，该p个样本语句以及对应的参考翻译结果可以是服务器中预先存储的，也可以是服务器从其他服务器中获取的，本申请实施例对样本语句的获取方式不加以限定。

步骤302，将样本语句输入待训练的机器翻译模型，得到样本语句的样本翻译结果。

可选地，该样本翻译结果是将样本语句中的词语翻译结果连接得到的，该机器翻译模型为模型参数待调整的非自回归的模型。

可选地，非自回归的机器翻译模型是通过对样本语句中的词汇进行独立翻译后，将独立翻译后得到的词语翻译结果连接后得到样本翻译结果的。

可选地，该机器翻译模型对应有词汇表，针对样本语句中的每个词语，确定词汇表中每个词汇与该样本语句中的词语对应的概率值，并将每个词汇对应的概率值作为该样本语句中每个词语的词语翻译结果。

可选地，在对机器翻译模型进行应用的过程中，对于源端语句中每个词语，选择词汇表中概率值最高的词汇作为翻译结果，并将每个词语对应的翻译结果连接后，得到对源端语句进行翻译得到的目标端语句。

步骤303，根据参考翻译结果计算词语翻译结果的梯度估计值，得到样本翻译结果的梯度估计值。

可选地，第t个词语翻译结果的梯度估计值是通过奖赏值计算得到的，该奖赏值可以是样本语句中的每个位置共享的，也可以是根据位置的不同确定得到的，针对上述两种方式分别进行说明：

第一，上述奖赏值是样本语句中每个位置共享的；

针对给定的源端句子X和目标句子Y，该机器翻译模型对从X到Y的翻译概率进行如下公式一的建模：

公式一：

其中，θ为模型参数，T为句子Y的长度，y_t用于表示句子Y中的第t个词语，p(y_t|X,θ)用于表示词语y_t的概率，目标句子Y中每个词语yt的生成相互独立。

该机器翻译模型对应的损失函数如下公式二所示：

公式二：

其中，r(Y)为句子Y的奖赏值，对该损失函数求导，得到如下求导公式三：

公式三：

以奖赏值r(Y)评估译文的质量，得到对梯度的无偏估计，如下公式四：

公式四：

第二，第t个词语翻译结果的梯度估计值是根据第t个奖赏值计算得到的。

可选地，第t个词语翻译结果的梯度估计值是通过第t个奖赏值计算得到的，该第t个奖赏值是通过对样本翻译结果中除第t个词语翻译结果以外的其他词语翻译结果从词汇表中进行采样后得到的，t为正整数。

可选地，该第t个词语翻译结果中包括词汇表中每个词汇在该位置的概率，则在对第t个奖赏值进行计算时，针对词汇表中的每个词汇对应的该第t个奖赏值需要分别进行计算。

步骤304，根据样本翻译结果的梯度估计值对机器翻译模型的模型参数进行调整。

可选地，序列级训练目标为优化奖赏值的期望，则以对奖赏值的期望进行优化为条件对模型参数进行调整。

综上所述，本实施例提供的机器翻译模型的训练方法，通过在训练过程中，通过奖赏值计算梯度估计值，并根据梯度估计值对机器翻译模型的模型参数进行调整，以奖赏值为调整参考数据得到梯度估计值对模型参数进行调整，从而实现对机器翻译模型的序列级训练，并提高训练过程的稳定性，提高训练后的机器翻译模型的翻译准确度。

本实施例提供的方法，通过在训练过程中，针对不同的位置采用不同的奖赏值进行梯度估计值的计算，并在计算奖赏值时，通过对除该位置以外的其它位置从词汇表中进行采样从而通过采样语句对奖赏值进行计算，提高了奖赏值与位置之间的关联关系，从而实现对机器翻译模型的序列级训练，并提高训练过程的稳定性，提高训练后的机器翻译模型的翻译准确度。

在一个可选的实施例中，当上述奖赏值根据位置的不同而分别计算时，该奖赏值在计算过程中是通过对采样语句的构成实现的，图4是本申请另一个示例性实施例提供的机器翻译模型的训练方法的流程图，以该方法应用于服务器中为例进行说明，如图4所示，该方法包括：

步骤401，获取样本语句，该样本语句为标注有参考翻译结果的语句。

可选地，该样本语句为第一自然语言的语句，该参考翻译结果中包括第二自然语言的语句。

通过样本语句和参考翻译结果对该机器翻译模型进行训练后，该机器翻译模型用于将第一自然语言的源端语句翻译为第二自然语言的目标端语句。

步骤402，将样本语句输入待训练的机器翻译模型，得到样本语句的样本翻译结果。

可选地，该样本翻译结果是将样本语句中每个词语的词语翻译结果连接得到的，该机器翻译模型为模型参数待调整的非自回归的模型。

步骤403，针对第t个词语翻译结果，从词汇表中对位于第t个词语翻译结果之前以及之后的词语进行采样得到采样词语。

可选地，针对第t个词语翻译结果，也即针对位置t上的预测词汇y_t，奖赏值的计算公式如下公式五所示：

公式五：

其中，y1：t-1用于表示对第1个位置到第t-1个位置的词汇进行采样，yt+1：T用于表示对第t+1个位置到第T个位置的词汇进行采样，E用于表示期望值，r(Y)用于表示句子Y的奖赏值。

值得注意的是，位置t上的预测词汇可以是一个，也可以是多个，当位置t上存在多个不同的预测词汇时，每个预测词汇对应一个概率值。可选地，该位置t上的预测词汇包括概率值最高的k个词汇，该位置t上的预测词汇还包括词汇表中除该k个词汇以外的其他词汇中的任意一个或一组词汇，k为正整数。

步骤404，将采样词语与第t个词语翻译结果顺次连接，得到采样语句。

可选地，当第t个词语翻译结果中包括k+1个预测词汇时，针对该k+1个预测词汇中的词汇y_t，采样得到以及将以及顺次连接后，得到采样语句。

步骤405，根据采样语句与参考翻译结果之间的差异确定第t个奖赏值。

可选地，上述步骤403至步骤405为单次采样过程对应的步骤，在一个可选的实施例中，对该采样次数进行计数，并在累次进行采样时将每次采样后计算得到的奖赏值进行累加，当采样次数达到n次时，根据累加得到的奖赏值之和计算奖赏平均值，并将奖赏平均值作为当前预测词汇对应的第t个奖赏值。

示意性的，该确定第t个奖赏值的过程请参考如下逻辑过程：

输入：输出概率分布p(·|X,θ)，位置t，预测词汇y_t，采样次数n

输出：预测词汇y_t对应的第t个奖赏值r(y_t)

其中，步骤1用于向r赋初始值为0，以及向i赋初始值为0；步骤2用于当i小于n时执行for循环语句；步骤3用于从词汇表X中对t位置之前的词汇和之后的词汇进行采样；步骤4用于将采样得到的词汇以及y_t相连得到采样语句步骤5用于根据采样语句以及参考翻译结果计算奖赏值，并将当次计算得到的奖赏值与在前计算得到的奖赏值进行累加；步骤6用于将i的取值加1用于继续执行for循环；步骤7用于当循环过程结束时，根据n次累加得到的奖赏值计算奖赏平均值；步骤8用于输出奖赏平均值作为词汇y_t对应的第t个奖赏值r(y_t)。

步骤406，根据第t个奖赏值计算第t个词语翻译结果的梯度估计值。

可选地，该梯度估计值的计算方式请参考如下公式六：

公式六：

对公式六采用REINFORCE算法，对梯度进行无偏估计，具体请参考如下公式七：

公式七：

步骤407，将每个词语翻译结果的梯度估计值之和确定为样本翻译结果的梯度估计结果。

步骤408，根据样本翻译结果的梯度估计结果对机器翻译模型的模型参数进行调整。

本实施例提供的方法，通过对除位置t以外的其他位置进行n次采样，并根据n次采样得到的采样语句计算该位置t的预测词汇y_t的梯度估计值，从而计算该样本翻译结果的梯度估计值，并实现对模型参数的调整，提高训练过程的稳定性，提高训练后的机器翻译模型的翻译准确度。

在一个可选的实施例中，上述公式七对应的梯度无偏估计方法对每个位置的预测结果单独进行评估，因此方差相对较小，但由于词汇表的规模较大，无法通过遍历整个词汇表精确计算公式六以消除方差。然而，由于在机器翻译中，模型在每一步翻译概率的分布比较集中，概率较大的前k个词汇的概率占比较大，且在预测出概率分布的softmax层中，每个词回传的梯度大小与预测概率大小成正比，因此概率较大的词汇也应当对应较大的梯度，故，本实施例中，对高概率的k个词汇进行遍历，并对剩下的词汇进行估计，从而得到公式六的低方差无偏估计。

图5是本申请另一个示例性实施例提供的机器翻译模型的训练方法的流程图，以该方法应用于服务器中为例进行说明，如图5所示，该方法包括：

步骤501，获取样本语句，该样本语句为标注有参考翻译结果的语句。

可选地，该样本语句为第一自然语言的语句，该参考翻译结果为第二自然语言的语句。

步骤502，将样本语句输入待训练的机器翻译模型，得到样本语句的样本翻译结果。

步骤503，针对第t个词语翻译结果，选择词汇表中概率最高的k个词汇，k为正整数。

可选地，该第t个词语翻译结果中包括词汇表中在第t个词语翻译结果处的概率分布，根据该概率分布选择概率最高的k个词汇。

步骤504，根据k个词汇中每个词汇对应的第t个奖赏值，计算k个词汇的第一梯度加权和。

可选地，该k个词汇中每个词汇对应的第t个奖赏值的计算过程请参考如上步骤403至步骤405，此处不再赘述。

可选地，该第一梯度加权和的计算过程，是通过计算该k个词汇中第m个词汇的概率与第m个词汇对应的第t个奖赏值的梯度乘积，0＜m≤k，并将k个词汇的梯度乘积相加得到的，其中，每个词汇对应的第t个奖赏值作为该词汇的权重。

步骤505，从词汇表中除k个词汇以外的词汇中进行采样，得到采样词汇。

步骤506，根据采样词汇对应的第t个奖赏值，预估第二梯度加权和。

可选地，该采样词汇对应的第t个奖赏值的计算过程请参考如上步骤403至步骤405，此处不再赘述。

可选地，该第一梯度加权和的计算过程，是通过计算总概率和与k个词汇的概率和之差，得到差值概率后，计算采样词汇的概率、采样词汇对应的第t个奖赏值以及差值概率之积得到的。

步骤507，将第一梯度加权和与第二梯度加权和之和作为第t个词语翻译结果的梯度估计值。

示意性的，定义k为高概率词数，T_K为概率大小排前k的词的集合，P_k为集合T_K中概率之和，为去除T_K中词语后的概率分布，则梯度估计方法请参考如下公式八：

公式八：

该公式八对应的逻辑算法如下所示：

输入：输出概率分布p(·|X,θ)，高概率词数k，采样次数n

输出：位置t的梯度估计值

其中，步骤1用于从词汇表中选择概率值最高的k个值得到概率大小排前k的词的集合T_K；

步骤2用于向梯度估计值赋初值为0，向去除T_K中词语后的概率分布赋初值为p，将集合T_K中概率之和P_k赋初值为0；

步骤3用于当词汇y_t为集合T_K中的词汇时执行循环语句；

步骤4用于通过上述步骤405中确定第t个奖赏值的过程对r(y_t)进行确定；

步骤5用于计算集合T_K中的词汇的梯度估计值；

步骤6用于设置在采样过程中避免采样到集合T_K中的词汇；

步骤7用于计算集合T_K中的词汇的第一梯度加权和；

步骤8用于实现归一化，以控制概率总和为1；

步骤9用于从中进行采样；

步骤10用于通过上述步骤405中确定第t个奖赏值的过程对r(y_t)进行确定；

步骤11用于预估第二梯度加权和；

步骤12用于输入第一梯度加权和与第二梯度加权和作为梯度估计值。

步骤508，将每个词语翻译结果的梯度估计值之和确定为样本翻译结果的梯度估计结果。

步骤509，根据样本翻译结果的梯度估计结果对机器翻译模型的模型参数进行调整。

本实施例提供的方法，通过对高概率的k个词汇进行遍历，并对剩下的词汇进行估计，从而得到低方差无偏估计，提高了模型训练的稳定性。

示意性的，表一给出了一个德到英的翻译示例，翻译准确度按照NAT-Base、FS-decoder、AR-Base的顺序上升，其中，NAT-Base与其它机器翻译模型的性能差距较大。

表一

其中，NAT-Base为非自回归模型的翻译结果，FS-decoder为本方案模型的翻译结果。可以看到，非自回归模型的译文中有严重的过翻译、漏翻译错误，如连续的4个“more”、“not not only only”等，并漏翻了“tragic”、“produce”等词。在本申请提供的技术方案的译文中，过翻译和漏翻译的错误基本都已被消除，翻译准确度得到了提高。

在一个可选的实施例中，上述机器翻译模型在训练后还可以应用于机器翻译过程中，图6是本申请一个示例性实施例提供的基于机器翻译模型的翻译方法的流程图，以该方法应用于服务器中为例进行说明，该方法包括：

步骤601，获取源端语句，该源端语句为第一自然语言的语句。

可选地，该源端语句可以是服务器中预先存储的语句，也可以是服务器接收到的终端发送的语句。

步骤602，将源端语句输入机器翻译模型。

可选地，该机器翻译模型为非自回归的模型，该机器翻译模型是通过标注有参考翻译结果的样本语句训练得到的，其中，训练过程是通过将样本语句输入待训练的机器翻译模型后，输出由词语翻译结果连接得到的样本翻译结果，并根据参考翻译结果计算样本翻译结果的梯度估计结果后，根据梯度估计结果对机器翻译模型的模型参数进行调整实现的，第t个词语翻译结果的梯度估计值是通过第t个奖赏值计算得到的，该第t个奖赏值是通过对样本翻译结果中除第t个词语翻译结果以外的其他词语翻译结果从词汇表中进行采样后得到的，t为正整数。

可选地，该机器翻译模型的训练方式具体请参考如图3、图4以及图5中提供的机器翻译模型的训练方法。

步骤603，通过机器翻译模型对源端语句进行翻译，并输出得到目标端语句，该目标端语句为第二自然语言的语句。

在对机器翻译模型进行测试的过程中，首先，设置数据集和非自回归基线，其中，在设置数据集时，对三个相互作用的任务进行了实验：IWSLT16en-de(196K对)、WMT14en+de(4.5M对)和WMTI6en-Ro(610K对)。对于所有任务，源语言和目标语言共享大小为40K的词汇表，每个源语言词汇对应至少一个目标语言词汇；针对非自回归基线，基于自回归基线，通过对自回归基线进行迭代优化得到非自回归基线，其中，迭代次数为2次。为了评估序列级训练方法，首先对非自回归基线进行预训练，然后对该非自回归模型进行微调。

实验数据如图7所示，根据图7示出的实验结果能够对序列级训练的有效性进行证明，以及对改进后的非自回归模型的防误判能力进行证明。改进后的非自回归模型的翻译准确度与自回归模型的翻译准确度相近，而非自回归模型的翻译速度有较大的提升。序列级训练方法的速度比字级训练慢，瓶颈在于奖赏值的计算占据了CPU。

而对奖赏值以及梯度估计值进行计算的过程中，在Top-K词可以占据概率分布中心部分的基础上，当K取值较大时将降低训练速度，而当K取值较小时则无法控制概率分布，通过从统计学和实验上分析K的取值在增强非回归模型中的效果，将K的取值分别设置为1、5和10，并记录10000个目标词预测中的前K个概率最高的词的概率和，图8示出了当K取值为1、5和10的情况下概率和以及翻译词汇总数之间的线性关系，如图2所示，x轴将概率分布划分为五个区间，y轴表示前k个概率最大的词汇在该区间内的次数。

该K在不同取值下效果还可以参考如下表二：

表二

k	1	5	10	100	1000
						E[P<sub>k</sub>]	0.818	0.916	0.929	0.948	0.968

如表二所示，当K取值为5为可以覆盖大部分概率分布的合适选择。可选地，该K的取值还可以为4、6、7等值，本申请实施例对此不加以限定。

其次，测试句子长度对机器翻译模型的性能的影响，如图9所示，当句子长度超过40时，NAT模型的翻译准确度下降，而其他机器翻译模型的翻译准确度良好。这表明了NAT模型在长句翻译方面的不足，而本申请的技术方案通过利用顺序信息有效的提高了NAT模型在长句翻译方面的性能。

图10是本申请一个示例性实施例提供的机器翻译模型的训练装置的结构框图，以该机器翻译模型的训练装置配置于服务器中为例进行说明，如图10所示，该装置包括：获取模块1010、输入模块1020、确定模块1030以及调整模块1040；

获取模块1010，用于获取样本语句，所述样本语句为标注有参考翻译结果的语句；

输入模块1020，用于将所述样本语句输入待训练的机器翻译模型，得到所述样本语句的样本翻译结果，所述样本翻译结果是将所述样本语句中的词语翻译结果连接得到的，所述机器翻译模型为模型参数待调整的非自回归的模型；

确定模块1030，用于根据所述参考翻译结果计算所述词语翻译结果的梯度估计值，得到所述样本翻译结果的梯度估计结果，其中，所述词语翻译结果的所述梯度估计值是通过奖赏值计算得到的；

调整模块1040，用于根据所述样本翻译结果的梯度估计结果对所述机器翻译模型的所述模型参数进行调整。

在一个可选的实施例中，所述确定模块1030，还用于针对第t个所述词语翻译结果，从所述词汇表中对位于第t个所述词语翻译结果之前以及之后的词语进行采样得到采样词语，t为正整数；将所述采样词语与第t个所述词语翻译结果顺次连接，得到采样语句；根据所述采样语句与所述参考翻译结果之间的差异确定所述第t个奖赏值；根据所述第t个奖赏值计算第t个所述词语翻译结果的所述梯度估计值。

在一个可选的实施例中，所述确定模块1030，还用于对采样次数进行计数，并在累次进行采样时将每次采样后计算得到的奖赏值进行累加；当所述采样次数达到n次时，根据累加得到的奖赏值之和计算奖赏平均值；将所述奖赏平均值作为所述第t个奖赏值。

在一个可选的实施例中，第t个所述词语翻译结果中包括所述词汇表中的词汇在第t个所述词语翻译结果处的概率分布；

所述确定模块1030，还用于选择所述词汇表中概率最高的k个词汇，k为正整数；根据所述k个词汇中每个词汇对应的所述第t个奖赏值，计算所述k个词汇的第一梯度加权和；

所述确定模块1030，还用于从所述词汇表中除所述k个词汇以外的词汇中进行采样，得到采样词汇；根据所述采样词汇对应的所述第t个奖赏值，预估第二梯度加权和；

所述确定模块1030，还用于将所述第一梯度加权和与所述第二梯度加权和之和，作为所述第t个词语翻译结果的所述梯度估计值。

在一个可选的实施例中，所述确定模块1030，还用于计算所述k个词汇中第m个词汇的概率与所述第m个词汇对应的所述第t个奖赏值的梯度乘积，0＜m≤k；将所述k个词汇的所述梯度乘积相加得到所述第一梯度加权和。

在一个可选的实施例中，所述确定模块1030，还用于计算总概率和与所述k个词汇的概率和之差，得到差值概率；计算所述采样词汇的概率、所述采样词汇对应的所述第t个奖赏值以及所述差值概率之积作为所述第二梯度加权和。

在一个可选的实施例中，所述确定模块1030，还用于将每个所述词语翻译结果的梯度估计值之和确定为所述样本翻译结果的梯度估计结果。

图11是本申请一个示例性实施例提供的基于机器翻译模型的翻译装置的结构框图，以该翻译装置配置于服务器中为例进行说明，如图10所示，该装置包括：获取模块1110、输入模块1120、输出模块1130；

获取模块1110，用于获取源端语句，所述源端语句为第一自然语言的语句；

输入模块1120，用于将所述源端语句输入机器翻译模型，所述机器翻译模型为非自回归的模型，所述机器翻译模型是通过标注有参考翻译结果的样本语句训练得到的，其中，训练过程是通过将所述样本语句输入待训练的所述机器翻译模型后，输出由词语翻译结果连接得到的样本翻译结果，并根据参考翻译结果计算样本翻译结果的梯度估计结果后，根据梯度估计结果对机器翻译模型的模型参数进行调整实现的，所述词语翻译结果的梯度估计值是通过奖赏值计算得到的；

输出模块1130，用于通过所述机器翻译模型对所述源端语句进行翻译，并输出得到目标端语句，所述目标端语句为第二自然语言的语句。

在一个可选的实施例中，如图12所示，所述装置还包括：

采样模块1140，用于针对第t个所述词语翻译结果，从词汇表中对位于第t个所述词语翻译结果之前以及之后的词语进行采样得到采样词语，t为正整数；将所述采样词语与第t个所述词语翻译结果顺次连接，得到采样语句；

确定模块1150，用于根据所述采样语句与所述参考翻译结果之间的差异确定所述第t个奖赏值；根据所述第t个奖赏值计算第t个所述词语翻译结果的所述梯度估计值。

在一个可选的实施例中，所述确定模块1150，还用于对采样次数进行计数，并在累次进行采样时将每次采样后计算得到的奖赏值进行累加；当所述采样次数达到n次时，根据累加得到的奖赏值之和计算奖赏平均值；将所述奖赏平均值作为所述第t个奖赏值。

需要说明的是：上述实施例提供的机器翻译模型的训练装置以及基于机器翻译模型的翻译装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的机器翻译模型的训练装置以及基于机器翻译模型的翻译装置与机器翻译模型的训练方法以及基于机器翻译模型的翻译方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请还提供了一种服务器，该服务器包括处理器和存储器，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的机器翻译模型的训练方法或基于机器翻译模型的翻译方法。需要说明的是，该服务器可以是如下图13所提供的服务器。

请参考图13，其示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲：所述服务器1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述机器翻译模型的训练方法或基于机器翻译模型的翻译方法的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的机器翻译模型的训练方法或基于机器翻译模型的翻译方法。

根据本发明的各种实施例，所述服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的机器翻译模型的训练方法或基于机器翻译模型的翻译方法中由服务器所执行的步骤。

本申请实施例还提供一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并实现上述机器翻译模型的训练方法或基于机器翻译模型的翻译方法。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述机器翻译模型的训练方法或基于机器翻译模型的翻译方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的机器翻译模型的训练方法或基于机器翻译模型的翻译方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述机器翻译模型的训练方法或基于机器翻译模型的翻译方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器翻译模型的翻译方法，其特征在于，所述方法包括：

获取源端语句，所述源端语句为第一自然语言的语句；

2.根据权利要求1所述的方法，其特征在于，所述词语翻译结果的梯度估计值的确定方法包括：

针对第t个所述词语翻译结果，从词汇表中对位于第t个所述词语翻译结果之前以及之后的词语进行采样得到采样词语，t为正整数；

将所述采样词语与第t个所述词语翻译结果顺次连接，得到采样语句；

根据所述采样语句与所述参考翻译结果之间的差异确定所述第t个奖赏值；

根据所述第t个奖赏值计算第t个所述词语翻译结果的所述梯度估计值。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

对采样次数进行计数，并在累次进行采样时将每次采样后计算得到的奖赏值进行累加；

当所述采样次数达到n次时，根据累加得到的奖赏值之和计算奖赏平均值；

将所述奖赏平均值作为所述第t个奖赏值。

4.一种机器翻译模型的训练方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述参考翻译结果计算所述词语翻译结果的梯度估计值，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

将所述奖赏平均值作为所述第t个奖赏值。

7.根据权利要求5所述的方法，其特征在于，第t个所述词语翻译结果中包括所述词汇表中的词汇在第t个所述词语翻译结果处的概率分布；

所述方法还包括：

选择所述词汇表中概率最高的k个词汇，k为正整数；

根据所述k个词汇中每个词汇对应的所述第t个奖赏值，计算所述k个词汇的第一梯度加权和；

从所述词汇表中除所述k个词汇以外的词汇中进行采样，得到采样词汇；

根据所述采样词汇对应的所述第t个奖赏值，预估第二梯度加权和；

将所述第一梯度加权和与所述第二梯度加权和之和，作为所述第t个词语翻译结果的所述梯度估计值。

8.根据权利要求7所述的方法，其特征在于，所述计算所述k个词汇的第一梯度加权和，包括：

计算所述k个词汇中第m个词汇的概率与所述第m个词汇对应的所述第t个奖赏值的梯度乘积，0＜m≤k；

将所述k个词汇的所述梯度乘积相加得到所述第一梯度加权和。

9.根据权利要求7所述的方法，其特征在于，所述预估第二梯度加权和，包括：

计算总概率和与所述k个词汇的概率和之差，得到差值概率；

计算所述采样词汇的概率、所述采样词汇对应的所述第t个奖赏值以及所述差值概率之积作为所述第二梯度加权和。

10.根据权利要求4至9任一所述的方法，其特征在于，所述根据所述参考翻译结果计算所述词语翻译结果的梯度估计值，得到所述样本翻译结果的梯度估计结果，包括：

将每个所述词语翻译结果的梯度估计值之和确定为所述样本翻译结果的梯度估计结果。

11.一种基于机器翻译模型的翻译装置，其特征在于，所述装置包括：

12.一种机器翻译模型的训练装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至3任一所述的基于机器翻译模型的翻译方法，或实现如权利要求4至10任一所述的机器翻译模型的训练方法。

14.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如权利要求1至3任一所述的基于机器翻译模型的翻译方法，或实现如权利要求4至10任一所述的机器翻译模型的训练方法。