CN110263350B

CN110263350B - 模型训练方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110263350B
Application number: CN201910176207.7A
Authority: CN
Inventors: 邵晨泽; 张金超; 孟凡东; 周杰; 冯洋
Original assignee: Tencent Technology Shenzhen Co Ltd; Institute of Computing Technology of CAS
Current assignee: Tencent Technology Shenzhen Co Ltd; Institute of Computing Technology of CAS
Priority date: 2019-03-08
Filing date: 2019-03-08
Publication date: 2024-05-31
Anticipated expiration: 2039-03-08
Also published as: CN110263350A

Abstract

本申请涉及一种模型训练方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取训练文本对；所述训练文本对包括相对应的源文本和期望文本；将所述源文本输入翻译模型，生成与所述源文本相对应的翻译文本；获取所述翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；所述隐层向量融合了所述源文本和所述翻译文本；根据所述翻译文本与所述期望文本，确定所述训练样本相应的训练标签；通过所述训练样本和相应的训练标签训练所述质量评估模型。本申请提供的方案可以降低模型训练成本。

Description

模型训练方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种模型训练方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术和机器学习技术的发展，为了节约人力和物力，在越来越多的场景下，逐渐开始选择通过基于机器学习的质量评估模型来对各种数据处理结果进行评分。比如对翻译场景下的翻译结果进行评分等。

然而，传统的质量评估模型需要人工标注的语料来进行训练，若是没有语料或是语料数量非常有限就难以训练有效的质量评估模型，导致需要耗费大量的人力来进行语料的人工标注，从而导致模型训练成本高的问题。

发明内容

基于此，有必要针对模型训练成本高的技术问题，提供一种模型训练方法、装置、计算机可读存储介质和计算机设备。

一种模型训练方法，包括：

获取训练文本对；所述训练文本对包括相对应的源文本和期望文本；

将所述源文本输入翻译模型，生成与所述源文本相对应的翻译文本；

获取所述翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；所述隐层向量融合了所述源文本和所述翻译文本；

根据所述翻译文本与所述期望文本，确定所述训练样本相应的训练标签；

通过所述训练样本和相应的训练标签训练所述质量评估模型。

一种模型训练装置，包括：

获取模块，用于获取训练文本对；所述训练文本对包括相对应的源文本和期望文本；

生成模块，用于将所述源文本输入翻译模型，生成与所述源文本相对应的翻译文本；

所述获取模块还用于获取所述翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；所述隐层向量融合了所述源文本和所述翻译文本；

确定模块，用于根据所述翻译文本与所述期望文本，确定所述训练样本相应的训练标签；

训练模块，用于通过所述训练样本和相应的训练标签训练所述质量评估模型。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述模型训练方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述模型训练方法的步骤。

上述模型训练方法、装置、计算机可读存储介质和计算机设备，在获取训练文本对，即相对应的源文本和期望文本后，即将源文本输入翻译模型，生成与源文本相对应的翻译文本，并获取翻译模型将将源文本翻译为翻译文本时，翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本。由于该隐层向量融合了源文本和翻译文本，便可为质量评估模型提供句对特征，也就是质量评估模型的输入数据，同时还根据翻译文本与期望文本，构造了质量评估模型的训练标签，从而可通过该输入数据和相应的训练标签训练质量评估模型，不再依赖于人工标注的语料来对质量评估模型，极大地降低了模型训练的成本，提高了模型训练的效率与准确性。

附图说明

图1为一个实施例中模型训练方法的应用环境图；

图2为一个实施例中模型训练方法的流程示意图；

图3为一个实施例中模型训练的界面示意图；

图4为一个实施例中模型训练步骤的流程示意图；

图5为另一个实施例中模型训练方法的流程示意图；

图6为另一个实施例中模型训练方法的流程示意图；

图7为一个实施例中翻译模型和质量评估模型联合训练的流程示意图；

图8为一个实施例中模型训练装置的结构框图；

图9为另一个实施例中模型训练装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中模型训练方法的应用环境图。参照图1，该模型训练方法应用于模型训练系统。该模型训练系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110和服务器120均可单独用于执行本申请实施例中提供的模型训练方法。终端110和服务器120也可协同用于执行本申请实施例中提供的模型训练方法。

需要说明的是，本申请实施例中涉及两种机器学习模型。机器学习模型是通过样本学习后具备某种能力的模型。本申请实施例中的一种机器学习模型为通过样本学习具有翻译能力的翻译模型。翻译是指将一种语种类型的语言转换为另一种语种类型的语言。比如将中文翻译为英文，或者将日文翻译为韩文等。当然，这里的语言也可以是地方语言，比如闽南语或者粤语等。本申请实施例中的另一种机器学习模型为通过样本学习具有翻译质量评估能力的质量评估模型。翻译质量评估是指对翻译出的译文的质量进行评分。

其中，机器学习模型可采用神经网络模型，比如CNN(Convolutional NeuralNetworks，卷积神经网络)模型、RNN(Recurrent Neural Networks，循环神经网络)模型或者transformer模型等。当然，机器学习模型也可以采用其他类型的模型，本申请实施例在此不做限定。

在本申请实施例中，计算机设备(如图1中所示的终端110或者服务器120)获取训练文本对；该训练文本对包括相对应的源文本和期望文本；将源文本输入翻译模型，生成与源文本相对应的翻译文本；获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；隐层向量融合了源文本和翻译文本；根据翻译文本与期望文本，确定训练样本相应的训练标签；通过训练样本和相应的训练标签训练质量评估模型。也就是说，计算机设备自动利用翻译模型为质量评估模型提供模型训练时输入的样本数据的同时，还为质量评估模型提供训练时参考所用的标签数据，不再需要耗费人力进行语料标注。

可以理解，在需要训练质量评估模型，但没有或者仅有少量标注数据时，可以利用本申请实施例中提供的方案，利用翻译模型来构建质量评估模型的训练数据，来联合训练质量评估模型。后续还可继续不断采用翻译模型来对质量评估模型进行调优，或者使用少量的标注数据对该质量评估模型进行调优。

前述训练质量评估模型的过程，可以是预训练的过程。在预训练过程中，将翻译模型用作环境元件，不改变翻译模型的模型参数，通过翻译模型提供质量评估模型的样本数据和标签数据初步训练质量评估模型。

前述训练质量评估模型的过程，也可以与翻译模型联合训练的过程。在联合训练翻译模型和质量评估模型的过程中，训练翻译模型时，固定质量评估模型的模型参数，通过质量评估模型为翻译模型提供标签数据；训练质量评估模型时，固定翻译模型的模型参数，通过翻译模型提供质量评估模型的样本数据和标签数据；此时，两个模型互为助力，相互协作联合训练。

这里采用的翻译模型可以是采用平行语料预训练得到的翻译模型。平行语料(parallel corpora)是由原文文本及其平行对应的译文文本所构成的双语(或者多语)文本对，其对齐程度可以是词级、句级、段级或者篇级等。翻译模型的预训练过程可参考后续实施例中的详细描述。

本申请实施例中，在翻译模型和质量评估模型训练完成后，翻译模型可以用于各种需要进行翻译的场景下进行翻译。比如，在翻译应用程序中使用该翻译模型进行翻译，或者在国际会议中使用该翻译模型进行同声传译等。质量评估模型则可应用于对各种场景下的翻译结果进行评分。比如，在翻译比赛上对各参赛选手对相同原文的翻译结果进行评比等。

如图2所示，在一个实施例中，提供了一种模型训练方法。本实施例主要以该方法应用于计算机设备来举例说明，该计算机设备具体可以是上述图1中的终端110或者服务器120。参照图2，该模型训练方法具体包括如下步骤：

S202，获取训练文本对；训练文本对包括相对应的源文本和期望文本。

其中，训练文本对具体可以是指平行语料。平行语料是由原文文本及其平行对应的译文文本所构成的双语(或者多语)文本对，其对齐程度可以是词级、句级、段级或者篇级等。举例说明，假设原文文本为中文文本，译文文本则可以包括英文文本，或者还包括法文文本等更多非中文语种的其他文本。

训练文本对包括的源文本即为平行语料中的原文文本，训练文本对包括的期望文本即为平行语料中的译文文本，也就是期望将源文本翻译成的目标文本。源文本具体可以是词、句子、段落或者篇章等。相应的，期望文本也可以是词、句子、段落或者篇章等。源文本可以是任意语种的文本，期望文本则为异于源文本所属语种的其他语种的文本。需要说明的是，当语种为地方语种时，不同的地方语种即为不同的语种。比如，闽南语和粤语是不同的语种。

在一个具体的实施例中，训练文本对为平行语料中的双语平行语料。双语平行语料是由原文文本及其平行对应的译文文本所构成的双语文本对。举例说明，训练文本对可以表示为<X,Y>，其中，X为源文本，Y为期望文本。<X,Y>比如<谢谢，Thankyou>或者<今天，Today>等。

具体地，计算机设备可从互联网上爬取相对应的不同语种的文本作为训练文本对，也可以接收其他计算机设备发送的相对应的不同语种的文本作为训练文本对，或者直接接收其他计算机设备发送的训练文本对等。其中，相对应的不同语种的文本中，哪个语种的文本作为源文本，哪个语种的文本作为期望文本取决于翻译模型的语种翻译方向。

可以理解，S202中获取的训练文本对的数量多于一个。通常情况下，训练文本对的数量越多，覆盖的文本内容范围越广，对模型的训练越有利。

S204，将源文本输入翻译模型，生成与源文本相对应的翻译文本。

其中，翻译模型是预训练的机器学习模型。该翻译模型在预训练时是学习将S202中源文本所属语种类型的文本翻译为期望文本所属语种类型的文本，故翻译模型在经过预训练后，即可以采用S202中训练文本对包括的源文本作为输入，经过翻译模型所包括的模型参数对源文本进行各种处理后，输出与源文本相对应的翻译文本。

具体地，计算机设备将源文本输入翻译模型后，翻译模型可对该源文本进行分词，得到与源文本相应的词序列；再通过翻译模型所包括的隐层对该词序列进行处理，得到该词序列对应的隐层向量，然后通过输出层将该隐层向量转化为翻译文本输出。

其中，隐层是神经网络模型中的一种术语，是相对于输入层和输出层的中间层。隐层中包括对神经网络模型训练得到的模型参数。这里翻译模型的隐层是相对于翻译模型的输入层和翻译模型的输出层的中间层。可以将翻译模型的输入层和输出层之间的所有中间层统称为隐层，也可以对这些中间层进行划分，即多层隐层。翻译模型的隐层可包括多层神经网络结构。每层神经网络结构可以包括一层或者多层神经网络层。

这里可以将翻译模型的隐层当作“黑盒”进行描述。隐层向量是翻译模型的隐层对输入其的数据进行处理后，得到的处理结果。隐层向量的数量可以是一个或者多个。隐层向量为多个时则为隐层向量序列。

S206，获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；隐层向量融合了源文本和翻译文本。

具体地，计算机设备将源文本输入翻译模型的输入层后，通过翻译模型的隐层对输入层传递过来的数据进行处理，得到隐层向量后继续传递至输出层，翻译模型的输出层则可以将隐层向量转换成源文本的翻译文本输出。一方面由于隐层向量是通过源文本处理得到的，即说隐层向量包含了源文本的信息；另一方面则由于翻译文本是由隐层向量处理得到的，即隐层向量也包含了翻译文本的信息。也就是说，隐层向量同时包括了源文本和翻译文本的信息。那么，兼融了源文本和翻译文本的隐层向量即可作为质量评估模型的输入数据，通过质量评估模型的输出来表征翻译文本作为源文本的翻译结果的优劣程度。

在一个具体的实施例中，翻译模型采用贪婪解码的方式生成源文本的翻译文本。即翻译模型在得到隐层向量后，将隐层向量转换成源文本的翻译文本时，每需要输出一个词时都贪婪地选取可能的词中概率最高的词作为目标词。也就是说，从隐层向量到翻译文本的过程是一系列离散的翻译决策，每个词一个决策。那么，如果将源文本和通过离散的翻译决策得到的翻译文本作为质量评估模型的模型输入数据时，则会导致质量评估模型的训练难度加大，且质量评估模型的收敛状态难以达到。而翻译模型的隐层输出的隐层向量则是连续的、且融合了源文本和翻译文本，非常适合作为质量评估模型的模型输入数据。

S208，根据翻译文本与期望文本，确定训练样本相应的训练标签。

其中，翻译文本是翻译模型对源文本进行翻译实际得到的译文文本，期望文本是期望翻译模型对源文本进行翻译得到的译文文本。期望文本通常为源文本的标准译文。举例说明，源文本为“猫坐在垫子上”，翻译文本为“The cat sat on the mat”，期望文本为“The cat is on the mat”。

可以理解，当翻译文本与期望文本的匹配程度越高，则认为翻译模型翻译的效果越好；当翻译文本与期望文本的匹配程度越低，则认为翻译模型翻译的效果越差。或者，当翻译文本与期望文本的差异越小，则认为翻译模型翻译的效果越好；当翻译文本与期望文本的差异越大，则认为翻译模型翻译的效果越差。而质量评估模型是用于对翻译结果进行质量评价的模型，那么计算机设备即可翻译文本与期望文本的匹配程度或差异来确定训练样本相应的训练标签。

具体地，计算机设备可采用预先设置的文本匹配方式计算翻译文本与期望文本的匹配度，将该匹配度或者该匹配度的线性变换结果作为训练样本相应的训练标签。计算机设备也可采用预先设置的文本差异计算方式计算翻译文本与期望文本的差异度，将该差异度或者该差异度的线性变换结果作为训练样本相应的训练标签。

在一个实施例中，S208包括：按照预设的文本匹配方式，计算翻译文本与期望文本的匹配度；将匹配度作为训练样本相应的训练标签。

其中，文本匹配方式是用于计算翻译文本与期望文本的匹配度的策略。文本匹配方式有多种，计算机设备可事先任选一种作为预设的文本匹配方式。

通俗地说，对于源文本翻译得到翻译文本后，需要一种评价指标来评价本次翻译的是好是坏。那么这里的评价指标的计算方式即可作为文本匹配方式。评价指标比如BLEU(Bilingual Evaluation understudy)、NIST(National Institute of standards andTechnology)或者错词率(The Word error rate,WER)等。

具体地，计算机设备在得到翻译模型对源文本进行翻译得到的翻译文本之后，将其与期望文本进行对比，按照预设的文本匹配方式，计算翻译文本与期望文本的匹配度，然后将匹配度作为训练样本相应的训练标签。

其中，匹配度可以记为M(Y',Y)，Y'为翻译文本，Y为期望文本。

在本实施例中，按照预设的文本匹配方式，即可计算得到翻译文本与期望文本的匹配度来作为质量评估模型的训练标签，避免了需要人工标注语料的人力资源浪费，降低了模型训练成本，提高了模型训练的便利性。

S210，通过训练样本和相应的训练标签训练质量评估模型。

具体地，质量评估模型的训练是有监督的训练过程。计算机设备将训练样本输入质量评估模型，以该训练样本相应的训练标签为目标输出，通过调整质量评估模型的模型参数使得模型的实际输出不断趋近目标输出。

上述模型训练方法，在获取训练文本对，即相对应的源文本和期望文本后，即将源文本输入翻译模型，生成与源文本相对应的翻译文本，并获取翻译模型将将源文本翻译为翻译文本时，翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本。由于该隐层向量融合了源文本和翻译文本，便可为质量评估模型提供句对特征，也就是质量评估模型的输入数据，同时还根据翻译文本与期望文本，构造了质量评估模型的训练标签，从而可通过该输入数据和相应的训练标签训练质量评估模型，不再依赖于人工标注的语料来对质量评估模型，极大地降低了模型训练的成本，提高了模型训练的效率与准确性。

在一个实施例中，S204包括：通过翻译模型的编码器对源文本进行语义编码，得到语义向量序列；通过翻译模型的解码器，根据翻译模型前次输出的目标词及前次输出的目标词的隐层向量，对语义向量序列进行解码得到当次的隐层向量；根据当次的隐层向量，确定翻译模型当次输出的目标词；根据翻译模型输出的各目标词，生成源文本对应的翻译文本。

其中，翻译模型是预训练完成的机器学习模型。通常情况下，源文本为字符序列，那么翻译模型则可采用基于神经网络的Sequence-to-Sequence(序列-序列)框架。Sequence-to-Sequence框架是包含Encoder-Decoder(编码器-解码器)结构的框架。Encoder-Decoder结构用于将输入序列转换为另一个序列输出。在该框架中，编码器将输入序列转化成语义向量序列，解码器则根据语义向量序列并按时间顺序依次生成输出序列。这里，编码器和解码器可以采用相同类型的神经网络模型。比如，编码器和解码器可以均为CNN模型、RNN模型或者transformer模型等。或者，编码器和解码器可以分别采用不同类型的神经网络模型。比如编码器采用RNN模型，而解码器则采用CNN模型等。

可以理解，对源文本进行语义编码的过程是将源文本的词序列转换为语义向量序列的过程。对语义向量序列进行解码的过程是将语义向量序列转化为隐层向量序列的过程。解码器的输出过程是将隐层向量序列转化为译词序列的过程。具体地，计算机设备将源文本输入翻译模型后，可先将源文本进行分词处理，得到源文本的词向量；再通过翻译模型中编码器的多层神经网络，逐层对源文本的词向量进行语义编码，得到语义向量序列。然后翻译模型中解码器再将语义向量序列解码转换成隐层向量序列，翻译模型的输出层再将隐层向量序列转换成译词序列，也就是源文本的翻译文本。

在一个具体的实施例中，翻译模型中编码器的隐层可按照源文本的词序列的词顺序，依次对词序列中的各词进行语义编码，得到各词对应的语义向量，从而得到与源文本的词序列对应的语义向量序列。具体地，计算机设备可对源文本的词序列中的第一个词进行语义编码，得到第一个词对应的语义向量。再对源文本的词序列中的第二个词进行语义编码，得到第二个词对应的语义向量。依次类推，直到得到最后一个词对应的语义向量。

其中，编码器的隐层在对当前词进行语义编码时，可将前序词所对应的语义向量直接或经过处理后所得的向量作为当前词语义编码的输入，得到当前词的语义向量。也就是说当前词的语义向量融合了前序词的语义向量。这样，源文本的词序列中各词的语义向量不仅包含了相应词的语义信息，且综合了前序词的语义信息，使得最终生成的语义向量序列的语义表达更为准确。这里的前序词是指当前词之前的词，当前词之前的词可以是所有词也可以是部分词。

下面通过举例说明的方式说明通过翻译模型中编码器对源文本的词序列逐词进行语义编码，得到语义向量序列步骤的过程：如图3所示，以源文本X为例，计算机设备将源文本输入到编码器后，编码器首先对源文本进行分词，得到源文本的词序列为X＝(x₁,x₂,...,x_m)，编码器的隐层对x₁进行语义编码得到相应的语义向量再根据语义向量/>对x₂进行语义编码得到相应的语义向量/>依次类推，直到得到x_m相应的语义向量/>最终得到语义向量序列/>

进一步地，翻译模型的编码器得到语义向量序列并传递至解码器后，解码器的隐层再对语义向量序列进行解码得到隐层向量序列，再通过输出层将隐层向量序列转换成目标词序列，也就是源文本的翻译文本。这里的语义向量序列和隐层向量序列都可以反映源文本的词序列的语义信息和语法信息。

具体地，翻译模型的解码器在生成隐层向量和目标词时是依次逐个进行的。当解码器在生成当次的隐层向量时，可获取前次输出的目标词和得到该目标词的隐层向量。依据前次输出的目标词和得到该目标词的隐层向量，对编码器输出的语义向量序列进行解码，得到当前的隐层向量。这样，隐层向量不仅包含了源文本的词序列中各词的语义信息，且综合了前次所输出目标词的语义信息，使得最终生成的翻译文本更为连贯，翻译结果更准确。

在一个具体的实施例中，翻译模型中解码器的隐层可先获取预设的起始词，基于起始词和编码器得到的语义向量序列进行解码，得到第一个隐层向量，继而根据该第一个隐层向量得到第一个目标词。再基于第一个目标词、第一个隐层向量和语义向量序列进行解码，得到第二个隐层向量，继而根据该第二个隐层向量得到第二个目标词。依次类推，直到得到的最后一个目标词为终止词。其中，起始词用于表示翻译文本开始，终止词则用于表示翻译文本结束。

下面通过举例说明的方式说明通过翻译模型中解码器对语义向量序列进行解码，得到隐层向量序列和目标词序列(即翻译文本)步骤的过程：继续参考图3，解码器的隐层基于y₁和语义向量序列进行解码得到第一个隐层向量/>再由隐层向量/>得到目标词y₂；再基于目标词y₂、隐层向量/>和语义向量序列/>进行解码得到第二个隐层向量/>再由隐层向量/>得到目标词y₃；依次类推，直到基于最后一个隐层向量得到终止词y_n+1，最终得到隐层向量序列/>翻译文本Y'＝(y₁,y₂,...,y_n+1)。

在一个实施例中，编码器得到的语义向量序列传递至解码器进行解码时，该语义向量序列可以通过注意力机制(Attention)传递至解码器，参考图3所示。其中，语义向量序列中的最后一个语义向量也可直接传递至解码器，参考图3所示，可直接与/>连接。其中，解码器在解码时可以通过注意力机制有选择的获取编码器得到的语义向量来辅助解码。

在一个具体的实施例中，通过翻译模型中解码器，根据翻译模型前次输出的目标词和该目标词的隐层向量，对语义向量序列进行解码，得到当词的隐层向量，包括：分别获取语义向量序列中各语义向量各自对应的注意力分配权重，根据各语义向量各自对应的注意力分配权重对各语义向量进行融合，再基于融合的各语义向量、前次输出的目标词和该目标词的隐层向量进行解码，得到当词的隐层向量。其中，各语义向量各自对应的注意力分配权重表示有侧重地选择编码器得到的信息来辅助解码。

如图4所示为一个实施例中采用注意力机制的结构示意图。参考图4可以看到，编码器得到的多个语义向量可分别按照各自对应的注意力分配权重，融合后作为解码器解码得到隐层向量的输入。比如，的注意力分配权重为a，/>的注意力分配权重为b，…，/>的注意力分配权重为m。其中，这多个语义向量融合作为得到不同的隐层向量的输入时，各自对应的注意力分配权重可以不同。比如，作为/>的输入时，/>的注意力分配权重为a₁，/>的注意力分配权重为b₁，…，/>的注意力分配权重为m₁；作为/>的输入时，/>的注意力分配权重为a₂，/>的注意力分配权重为b₂，…，/>的注意力分配权重为m₂。

在本实施例中，通过注意力机制融合的方式，在解码时从编码器的信息中选择相关的信息作为辅助，更充分的学习到翻译模型中各隐层表示，减少了在文本翻译过程中有效信息的丢失，大大提高了文本翻译的准确率。

在一个实施例中，通过输出层将隐层向量转换成目标词的过程，实质上是生成在输出词汇表上的概率分布，并基于概率分布进行选词的过程。可以理解，翻译模型的输出层依据当次得到的隐层向量输出词汇表中每个词成为当次的目标词的概率，进而选取其中一个词作为当次的目标词。那么，理论上翻译模型可以输出多种目标词序列，也就是多种翻译文本。

在一个实施例中，计算机设备可以通过为输出层设置选词策略从而控制翻译模型的输出。计算机设备根据不同的选词策略可以输出不同的目标词序列，且输出的目标词序列的数量也可以不同。其中，选词策略可以是每次均选取对应概率最高的词作为目标词，即通俗意义上所说的贪婪解码。选词策略也可以是总概率最高的词序列，即通俗意义上所说的束搜索解码。

需要说明的是，在翻译模型的训练以及利用翻译模型训练质量评估模型的过程中，为了便于为质量评估评估模型提供训练样本的训练标签，翻译模型中输出层的选词策略具体可以是贪婪解码策略。这样可以控制翻译模型输出一组目标词序列，即一种翻译文本。另外，由于基于贪婪解码得到的翻译文本不一定是最优的译文，那么在翻译模型的使用、或者单独训练时，翻译模型的输出层的选词策略可以不局限于贪婪解码，比如还可以是束搜索解码，这样翻译模型可以输出多组目标词序列，即多种翻译文本，从而可以从中选取更优的译文，或者训练学习到输出更优的译文。

在一个实施例中，获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本，包括：获取通过翻译模型中解码器包括的隐层依次输出的隐层向量；将各隐层向量按输出的时间顺序排列得到隐层向量序列；获取隐层向量序列作为质量评估模型的训练样本。

具体地，翻译模型中解码器包括的隐层在依次解码出多个隐层向量后，可将这些隐层向量按输出的时间顺序排列得到隐层向量序列，将该隐层向量序列作为质量评估模型的训练样本，也就是质量评估模型的输入。

可以理解，翻译模型采用贪婪解码的方式生成源文本的翻译文本。即翻译模型在得到隐层向量后，将隐层向量转换成源文本的翻译文本时，每需要输出一个词时都贪婪地选取可能的词中概率最高的词作为目标词。也就是说，从隐层向量到翻译文本的过程是一系列离散的翻译决策，每个词一个决策。那么，如果将源文本和通过离散的翻译决策得到的翻译文本作为质量评估模型的模型输入数据时，则会导致质量评估模型的训练难度加大，且质量评估模型的收敛状态难以达到。而翻译模型的隐层输出的隐层向量则是连续的、且融合了源文本和翻译文本，非常适合作为质量评估模型的模型输入数据。

在本实施例中，选取翻译模型的隐层所输出的隐层向量作为质量评估模型的输入，而不再采用源文本和翻译文本作为质量评估模型的输入，极大地简化了质量评估模型的训练难度，提高了质量评估模型的训练有效率。

上述实施例中，通过翻译模型的解码器对源文本进行语义编码，在进行解码时，每次得到的隐层向量不仅包含了源文本的词序列中词的语义信息，且综合了前次所输出目标词的语义信息，可以学习更好的隐层表示，使得最终生成的翻译文本更为连贯，翻译结果更准确，大大提高了翻译的准确率。

可以理解，本申请实施例中所使用的“当次”用于描述翻译模型的解码器进行解码并输出当次的目标词的时刻，“前次”用于描述解码器进行解码并输出前次的目标词的时刻。比如，前次为第i-1次，翻译模型所输出的目标词则为y_i-1；当次为第i次，翻译模型所输出的目标词则为y_i。而且，“当次”是一个相对变化的次数。比如，翻译模型在输出当次i的下次i+1的目标词时，则可将该下次i+1作为新的当次，将当次i作为新的前次。

在一个实施例中，S210包括：将训练样本输入质量评估模型，得到质量评估得分；根据质量评估得分和训练标签的差异构造损失函数；固定翻译模型的模型参数，按照最小化损失函数的方向调整质量评估模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

其中，质量评估模型的输出为质量评估得分。质量评估得分是对翻译质量进行量化后的数值，用于反映翻译质量。质量评估得分越大表示翻译质量越好，质量评估得分越小表示翻译质量越差。质量评估向量，可以理解为向量形式的质量评估得分，其包含了质量评估得分的信息。

在一个实施例中，将训练样本输入质量评估模型，得到质量评估得分，包括：通过质量评估模型的多个循环神经网络单元，逐个对训练样本进行运算，得到与训练样本对应的质量评估向量；对质量评估向量进行线性变换和非线性变换中的至少一种变换，得到由质量评估向量映射至的质量评估得分。

这里的训练样本即为翻译模型中解码器的隐层所输出的隐层向量序列。质量评估模型的多个循环神经网络单元，可分别逐个对解码器所输出的隐层向量序列中的各隐层向量进行处理，最终得到质量评估向量。

具体地，计算机设备可通过质量评估模型的第一个循环神经网络单元，基于解码器所输出的隐层向量序列中的第一个隐层向量处理得到相应的质量评估向量；再通过质量评估模型的第一个循环神经网络单元基于前次得到的质量评估向量和隐层向量序列中的第二个隐层向量处理得到相应的质量评估向量；依次类推，直到得到通过最后一个循环神经网络单元基于前次得到的质量评估向量和隐层向量序列中的最后一个隐层向量处理得到最终的质量评估向量。

下面通过举例说明的方式说明通过质量评估模型的多个循环神经网络单元，逐个对训练样本进行运算，得到与训练样本对应的质量评估向量的过程：继续参考图3，质量评估模型的第一个循环神经网络单元基于处理得到相应的质量评估向量/>第二个循环神经网络单元基于/>和/>处理得到相应的质量评估向量/>依次类推，直到得到最终的质量评估向量/>

在一个具体的实施例中，最终得到的质量评估向量为一个定长的向量。也就是说，无论训练样本的大小，最终得到的质量评估向量的长度是固定的。这样，有利于将质量评估向量进行线性或非线性处理归一量化到一个数据范围内。

进一步地，计算机设备可继续对质量评估向量进行线性变换和非线性变换中的至少一种变换，以将向量形式的质量评估向量映射到数值形式的质量评估得分，可即为qe_out。这里，对质量评估向量进行线性变换和非线性变换中的至少一种变换是指可以进对质量评估向量进行线性变换或者非线性变换，且变换的次数可以是依次或多次。也可以对质量评估向量进行线性变换和非线性变换，且变换的次数可以是依次或多次，其中，线性变换和非线性变换可以交替进行。

在一个具体的实施例中，最终得到的质量评估得分为一个取值在(0，1)之间的具体数值。

在一个具体的实施例中，对质量评估向量进行线性变换和非线性变换中的至少一种变换的网络结构可以采用前馈神经网络。前馈神经网络中的每一层接收前一层的输出，并输出给下一层，各层间没有反馈。

可以理解，质量评估模型包括循环神经网络和前馈神经网络两个部分。循环神经网络包括多个循环神经网络单元，用于对解码器输出的隐层向量序列进行处理得到质量评估向量。前馈神经网络包括多个可以进行线性或者非线性变换的网络层，用于将向量形式的质量评估向量数值化为质量评估得分。

上述实施例中，通过质量评估模型的多个循环神经网络单元，逐个对训练样本进行运算，可以融合翻译模型中编码器输出的各隐层向量的信息，以学习更好的质量评估向量表示，从而更加准确地进行翻译质量评估。

其中，训练结束条件可以是对模型的训练次数达到预设训练次数。服务器可在对模型进行训练时，对训练次数进行计数，当计数达到预设训练次数时，服务器可判定模型满足训练结束条件，并结束对模型的训练。训练结束条件也可以是调整后的质量评估模型的性能指标达到预设指标。

具体地，计算机设备在得到质量评估得分后，即可根据质量评估得分和训练标签的差异来构造损失函数，固定翻译模型的模型参数，按照最小化损失函数的方向调整质量评估模型的模型参数。如果调整模型参数后，不满足训练停止条件，则返回步骤S202继续训练，直到满足训练停止条件时结束训练。

在一个具体的实施例中，计算机设备可以以质量评估得分和训练标签的差异的平方函数作为损失函数，质量评估模型的损失函数如下式所示：

L_quality＝(qe_out-M(Y',Y))² (1)

当然，计算机设备也可以以质量评估得分和训练标签的差异的其他函数作为损失函数。比如最大似然函数等。

上述实施例中，在联合训练翻译模型和质量评估模型的过程中，需要训练质量评估模型时，则固定翻译模型，以翻译模型为环境元件，利用翻译模型为质量评估模型提供有标注的训练模型，不需要人工进行语料标注，提高了质量评估模型的训练效率。

在一个实施例中，该模型训练方法包括：获取训练文本对；训练文本对包括相对应的源文本和期望文本；将源文本输入翻译模型，生成与源文本相对应的翻译文本；当选择训练质量评估模型时，则获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；隐层向量融合了源文本和翻译文本；根据翻译文本与期望文本，确定训练样本相应的训练标签；通过训练样本和相应的训练标签训练质量评估模型；当选择训练翻译模型时，则将翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分；根据质量评估得分确定翻译模型的损失函数；按照最小化损失函数的方向训练翻译模型。

可以理解，本实施例为联合训练翻译模型和质量评估模型的实施例。具体地，可以仅需要机器翻译的平行语料，即可一方面利用翻译模型给质量评估模型提供训练数据，另一方面利用质量评估模型给翻译模型提供监督信息，从而实现翻译模型与质量评估模型的联合训练。

具体地，计算机设备可获取训练文本对，将训练文本对中的源文本输入翻译模型，生成与源文本相对应的翻译文本。此时，计算机设备可选择当前是进行质量评估模型的训练还是进行翻译模型的训练。当选择训练质量评估模型时，计算机设备则获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本，根据翻译文本与期望文本确定训练样本相应的训练标签，从而通过训练样本和相应的训练标签训练质量评估模型。当选择训练翻译模型时，计算机设备则将翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分，根据质量评估得分确定翻译模型的损失函数，进而按照最小化损失函数的方向训练翻译模型。

当然，翻译模型与质量评估模型的训练也可以并行进行。但翻译模型的模型参数调整不连带调整质量评估模型的模型参数，质量评估模型的模型参数调整也不连带调整翻译模型的模型参数。可以理解，模型的训练即为不断调整模型参数的过程，也就是说训练翻译模型时，仅调整翻译模型的模型参数；训练质量评估模型时，仅调整质量评估模型的模型参数。

如图5所示，在一个具体的实施例中，该模型训练方法包括以下步骤：

S502，获取训练文本对；训练文本对包括相对应的源文本和期望文本。

S504，将源文本输入翻译模型，生成与源文本相对应的翻译文本。

S506，判断当前训练翻译模型还是质量评估模型；当选择训练质量评估模型时，则跳转至S508；当选择训练翻译模型时，则跳转至S514。

其中，计算机设备可预先设置切换当前训练的模型的条件。比如，每对一个模型迭代训练N次即切换训练另一个模型等。

S508，获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；隐层向量融合了源文本和翻译文本。

S510，根据翻译文本与期望文本，确定训练样本相应的训练标签。

S512，固定翻译模型的模型参数，通过训练样本和相应的训练标签训练质量评估模型。

S514，将翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分；隐层向量融合了源文本和翻译文本。

S516，根据质量评估得分确定翻译模型的损失函数。

在一个具体的实施例中，计算机设备可以以质量评估得分的相反数作为损失函数，翻译模型的损失函数如下式所示：

L_translation＝-qe_out (2)

当然，计算机设备也可以以质量评估得分的其他函数作为损失函数。比如最大似然函数等。

在本实施例中，质量评估模型的输出可进行求导，这样即可将求导产生的梯度直接传播到翻译模型中，便可以解决梯度估计带来的不稳定性问题，提高翻译模型的训练稳定性和有效性。

S518，固定质量评估模型的模型参数，按照最小化损失函数的方向训练翻译模型。

上述实施例中，在获取训练文本对，即相对应的源文本和期望文本后，即将源文本输入翻译模型，生成与源文本相对应的翻译文本。这样，在需要训练质量翻译模型时，获取翻译模型将源文本翻译为翻译文本时，翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本。由于该隐层向量融合了源文本和翻译文本，便可为质量评估模型提供句对特征，也就是质量评估模型的输入数据，同时还根据翻译文本与期望文本，构造了质量评估模型的训练标签。而且，在需要训练翻译模型时，将翻译模型将源文本翻译为翻译文本时，翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分作为监督信息。这样，质量评估模型的训练不再依赖于人工标注的语料来对质量评估模型，翻译模型的训练不再受困于不稳定性的干扰，极大地降低了模型训练的成本，提高了模型训练的效率与准确性。

在一个实施例中，在翻译模型和质量评估模型训练完成后，可获取待翻译的源文本，将待翻译的源文本输入翻译模型得到翻译文本。若需要对翻译结果进行评估时，则将翻译模型的隐层输出的隐层向量输入质量评估模型，得到质量评估得分。由此可以看出，质量评估模型在使用时，可以在参考译文缺失的情况下评判翻译文本的质量。因此可以利用单语语料，结合质量评估模型半监督地训练翻译模型。

如图6所示，在一个实施例中，该模型训练方法还包括以下步骤：

S602，获取翻译模型的源端单训练样本。

其中，源端单训练样本是指用于输入翻译模型的文本，即仅有一种语种类型的文本。通俗地理解为只有待翻译源端单训练样本的文本，不存在标准译文。

可以理解，相较于前述实施例中提到的训练文本对，当翻译模型的语种翻译方向确定后，源端语种下的任意文本均可以用作源端单训练样本。源端语种是指翻译模型能够翻译的文本所属的语种。比如翻译模型将中文翻译为英文，那么任意的中文文本均可以作为源端单训练样本。这样源端单训练样本的来源和覆盖率即可大大地提升。

S604，将源端单训练样本输入翻译模型，获取翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分。

S606，根据质量评估得分，确定翻译模型的损失函数。

如前述实施例，计算机设备也可以以质量评估得分的相反数作为损失函数，也就是前述实施例中的式(2)作为损失函数。当然，计算机设备也可以以质量评估得分的其他函数作为损失函数。比如最大似然函数等。

S608，按照最小化损失函数的方向调整翻译模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

上述实施例中，在译文缺失的场景下也可以对翻译模型进行训练，不再局限于传统的翻译模型训练场景下，对原文和译文需求的限定，极大地扩宽了模型训练的应用范围。而且，可直接对损失函数求导，使得训练过程更加稳定。

在一个实施例中，该模型训练方法还包括：将源文本输入翻译模型，得到多个预测文本和各预测文本各自对应的翻译概率；基于多个预测文本中与期望文本匹配的预测文本所对应的翻译概率，构建训练目标预训练翻译模型。将源文本输入翻译模型，生成与源文本相对应的翻译文本，包括：将源文本输入预训练得到的翻译模型，生成与源文本相对应的翻译文本。

可以理解，在利用翻译模型为质量评估模型提供训练数据时，需要先对翻译模型进行预训练。未经训练的翻译模型可能会生成错误的翻译文本，导致训练数据的出错，进而影响质量评估模型的训练。其中，预训练翻译模型的语料可以与训练质量评估模型的语料相同，也可以不同。也就是说，在计算机设备在执行S202后，可以进行翻译模型的预训练，若翻译模型已预训练完毕，则可借助预训练的翻译模型训练质量评估模型。

具体地，翻译模型中编码器的隐层可按照源文本的词序列的词顺序，依次对词序列中的各词进行语义编码，得到各词对应的语义向量，从而得到与源文本的词序列对应的语义向量序列。具体地，计算机设备可对源文本的词序列中的第一个词进行语义编码，得到第一个词对应的语义向量。再对源文本的词序列中的第二个词进行语义编码，得到第二个词对应的语义向量。依次类推，直到得到最后一个词对应的语义向量。

进一步地，翻译模型的编码器得到语义向量序列并传递至解码器后，解码器的隐层再对语义向量序列进行解码逐个生成隐层向量，并相应得到每个隐层向量对应的目标词。当解码器在生成当次的隐层向量时，可获取前次输出的目标词和得到该目标词的隐层向量。依据前次输出的目标词和得到该目标词的隐层向量，对编码器输出的语义向量序列进行解码，得到当前的隐层向量。

更进一步地，解码器的隐层在每生成一个隐层向量时，即可通过输出层得到该隐层向量解码至的各候选词和相应的概率。这样，解码器在每需要输出一个目标词时，均可以存在多种选择，最终即可得到多组候选词序列，也就是多个预测文本，且每组预测文本各自对应一个翻译概率。

可以理解，期望文本是在训练翻译模型时，期望翻译模型输出的翻译文本。那么在将源文本输入翻译模型，得到多个预测文本时，则希望这些预测文本中与期望文本一致的那个预测文本对应的翻译概率最大。故基于多个预测文本中与期望文本匹配的预测文本所对应的翻译概率，构建训练目标预训练翻译模型。

在翻译模型预训练完成后，即可将源文本输入预训练得到的翻译模型，生成与源文本相对应的翻译文本，来构建质量评估模型的训练数据。

在本实施例中，对翻译模型进行预训练，再利用预训练得到的翻译模型来为质量评估模型提供训练数据，提高了质量评估模型训练的有效性。

在一个实施例中，该模型训练方法还包括：获取待翻译文本；将待翻译文本输入翻译模型，得到多个候选文本；将多个候选文本各自对应的隐层向量序列分别输入质量评估模型，得到各候选文本各自相应的质量评估得分；按照各质量评估得分对相应的候选文本进行排序。

可以理解，在使用已经训练完的翻译模型在进行翻译时输出多个候选文本的场景下，若需要对这多个候选文本进行排序，或者从这多个候选文本中选出较优的译文时，可以采用本申请各实施例中得到的质量评估模型对这多个候选文本进行质量评估，得到各候选文本各自对应的质量评估得分，从而利用得到的这些质量评估得分对这些候选文本进行排序。

需要说明的是，这里翻译时使用的翻译模型不限定于本申请实施例中的翻译模型，也可以是基于其他训练方式得到的、或者其他模型结构的具有翻译功能的模型，只要该模型能得到作为质量评估模型输入的隐层向量序列即可。

具体地，计算机设备可在翻译场景下获取待翻译文本，将待翻译文本输入翻译模型。当翻译模型输出多个候选文本、且需要对这些候选文本进行排序或者挑选时，即可获取本申请上述实施例中训练完的质量评估模型，将多个候选文本各自对应的隐层向量序列分别输入质量评估模型，得到各候选文本各自相应的质量评估得分；这样即可按照各质量评估得分对相应的候选文本进行排序。

其中，排序可以是顺序排序，即质量评估得分高的候选文本排序靠前，质量评估得分低的候选文本排序靠后；排序也可以是逆序排序，即质量评估得分高的候选文本排序靠后，质量评估得分低的候选文本排序靠前。

在一个实施例中，在需要从这些候选文本中挑选较优的候选文本时，可以从顺序排序的候选文本中选取排在首位或者排序靠前的多个候选文本，或者从逆序排序的候选文本中选取排在末位或者排序靠后的多个候选文本。

可以理解的是，翻译模型的解码器在生成隐层向量时是依次逐个进行的，当前输出的目标词是根据当前得到的隐层向量确定的；其中，通过当前的隐层向量得到当前的目标词是一个概率选词的过程，且当前的隐层向量与前次的隐层向量和前次输出的目标词相关，那么不同的候选文本，即不同的目标词序列必然对应不同的隐层向量序列。因此，质量评估模型即可根据不同的候选文本各自相异的隐层向量序列，得到各候选文本各自相异的质量评估得分。

上述实施例中，在质量评估模型训练完成后，可以用来对待翻译文本翻译出的多个候选文本进行排序或挑选，从而应用到翻译模型中，扩宽了应用范围。

图7示出了一个具体的实施例中翻译模型和质量评估模型联合训练的流程示意图。参考图7，该联合训练过程包括三个阶段：预训练翻译模型阶段、预训练质量评估模型阶段和联合训练翻译模型和质量评估模型阶段。

预训练翻译模型阶段：计算机设备获取训练文本对(X,Y)，该训练文本对包括相对应的源文本(X)和期望文本(Y)；继而将源文本输入翻译模型，得到多个预测文本和各预测文本各自对应的翻译概率；再基于这多个预测文本中与期望文本匹配的预测文本所对应的翻译概率，构建训练目标预训练所述翻译模型。其中，计算机设备具体可以以源文本到输出期望文本的翻译概率P(Y|X)为训练目标；预训练翻译模型即调整翻译模型的模型参数使得训练目标最大化。

预训练质量评估模型阶段：计算机设备可继续使用获取的训练文本对，将源文本输入预训练得到的翻译模型，生成与源文本相对应的翻译文本Y'；继而获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；再根据翻译文本与期望文本，确定训练样本相应的训练标签；从而将训练样本输入质量评估模型得到质量评估得分qe_out，根据质量评估得分和训练标签的差异构造损失函数，预训练质量评估模型。其中，计算机设备可以以翻译文本与期望文本的匹配度M(Y',Y)作为训练样本相应的训练标签，并进一步地以质量评估得分和训练标签的差异的平方函数作为损失函数；预训练质量评估模型即调整质量评估模型的模型参数使得损失函数最小化。

联合训练翻译模型和质量评估模型阶段：计算机设备还可继续使用获取的训练文本对，将源文本输入翻译模型，生成与源文本相对应的翻译文本。当选择训练质量评估模型时，则获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；根据翻译文本与期望文本，确定训练样本相应的训练标签；将训练样本输入质量评估模型得到质量评估得分，根据质量评估得分和训练标签的差异构造损失函数，固定翻译模型的模型参数，按照最小化损失函数的方向训练质量评估模型。当选择训练翻译模型时，则将翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分；根据质量评估得分确定翻译模型的损失函数；固定质量评估模型的模型参数，按照最小化损失函数的方向训练翻译模型。其中，计算机设备可以以翻译文本与期望文本的匹配度作为质量评估模型的训练标签，并进一步地以质量评估得分和训练标签的差异的平方函数作为质量评估模型的损失函数；训练质量评估模型即调整质量评估模型的模型参数使得损失函数最小化。计算机设备可以以质量评估得分的相反数作为翻译模型的损失函数；训练翻译模型即调整翻译模型的模型参数使得损失函数最小化。

其中，在预训练翻译模型阶段和联合训练翻译模型和质量评估模型阶段，翻译模型的训练过程可以不同；在预训练质量评估模型阶段和联合训练翻译模型和质量评估模型阶段，质量评估模型的训练过程可以相同。预训练翻译模型阶段、预训练质量评估模型阶段和联合训练翻译模型和质量评估模型阶段，这三个阶段可以使用不同的平行语料，也可以使用相同的平行语料。

这样，在需要训练翻译模型且有一定数量的平行语料的场景下，可以根据本身申请各实施例中的联合训练翻译模型与质量评估模型的方式，以质量评估模型为指导来训练翻译模型以提升翻译模型的性能。若还有源端单语语料，也可以采用该源端单语语料来训练翻译模型。

在需要训练质量评估模型，但没有或者仅有少量标注数据的场景下，可以根据本身申请各实施例中的联合训练翻译模型与质量评估模型的方式，通过翻译模型来构建质量评估的训练数据，从而训练质量评估模型。后续还可直接使用该翻译模型或者使用少量标注数据对质量评估模型进行调优。

在已经训练完的翻译模型在进行翻译时输出多个候选文本的场景下，若需要对翻译模型得到的多个候选文本进行排序和/或选出较优的候选文本时，可以采用本申请各实施例中得到的质量评估模型对这多个候选文本进行质量评估，得到各候选文本各自对应的质量评估得分，从而利用得到的这些质量评估得分对这些候选文本进行排序。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图8所示，在一个实施例中，提供了一种模型训练装置800。参照图8，该模型训练装置800包括：获取模块801、生成模块802、确定模块803和训练模块804。

获取模块801，用于获取训练文本对；训练文本对包括相对应的源文本和期望文本。

生成模块802，用于将源文本输入翻译模型，生成与源文本相对应的翻译文本。

获取模块801还用于获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；隐层向量融合了源文本和翻译文本。

确定模块803，用于根据翻译文本与期望文本，确定训练样本相应的训练标签。

训练模块804，用于通过训练样本和相应的训练标签训练质量评估模型。

上述模型训练装置800，在获取训练文本对，即相对应的源文本和期望文本后，即将源文本输入翻译模型，生成与源文本相对应的翻译文本，并获取翻译模型将将源文本翻译为翻译文本时，翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本。由于该隐层向量融合了源文本和翻译文本，便可为质量评估模型提供句对特征，也就是质量评估模型的输入数据，同时还根据翻译文本与期望文本，构造了质量评估模型的训练标签，从而可通过该输入数据和相应的训练标签训练质量评估模型，不再依赖于人工标注的语料来对质量评估模型，极大地降低了模型训练的成本，提高了模型训练的效率与准确性。

在一个实施例中，生成模块802还用于通过翻译模型的编码器对源文本进行语义编码，得到语义向量序列；通过翻译模型的解码器，根据翻译模型前次输出的目标词及前次输出的目标词的隐层向量，对语义向量序列进行解码得到当次的隐层向量；根据当次的隐层向量，确定翻译模型当次输出的目标词；根据翻译模型输出的各目标词，生成源文本对应的翻译文本。

在一个实施例中，获取模块801还用于获取通过翻译模型中解码器包括的隐层依次输出的隐层向量；将各隐层向量按输出的时间顺序排列得到隐层向量序列；获取隐层向量序列作为质量评估模型的训练样本。

在一个实施例中，确定模块803还用于按照预设的文本匹配方式，计算翻译文本与期望文本的匹配度；将匹配度作为训练样本相应的训练标签。

在一个实施例中，训练模块804还用于将训练样本输入质量评估模型，得到质量评估得分；根据质量评估得分和训练标签的差异构造损失函数；固定翻译模型的模型参数，按照最小化损失函数的方向调整质量评估模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

在一个实施例中，训练模块804还用于通过质量评估模型的多个循环神经网络单元，逐个对训练样本进行运算，得到与训练样本对应的质量评估向量；对质量评估向量进行线性变换和非线性变换中的至少一种变换，得到由质量评估向量映射至的质量评估得分。

在一个实施例中，当选择训练翻译模型时，生成模块802还用于翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分；确定模块803还用于根据质量评估得分确定翻译模型的损失函数；训练模块804用于按照最小化损失函数的方向训练翻译模型。当选择训练质量评估模型时，获取模块801还用于获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；确定模块803还用于根据翻译文本与期望文本，确定训练样本相应的训练标签；训练模块804还用于通过训练样本和相应的训练标签训练质量评估模型。

在一个实施例中，获取模块801还用于获取翻译模型的源端单训练样本；生成模块802还用于将源端单训练样本输入翻译模型，获取翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分；确定模块803还用于根据质量评估得分，确定翻译模型的损失函数；训练模块804还用于按照最小化损失函数的方向调整翻译模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

在一个实施例中，生成模块802还用于将源文本输入翻译模型，得到多个预测文本和各预测文本各自对应的翻译概率；训练模块804还用于基于多个预测文本中与期望文本匹配的预测文本所对应的翻译概率，构建损失函数预训练翻译模型。生成模块802还用于将源文本输入预训练得到的翻译模型，生成与源文本相对应的翻译文本。

如图9所示，在一个实施例中，模型训练装置800还包括：使用模块805，用于获取待翻译文本；将待翻译文本输入翻译模型，得到多个候选文本；将多个候选文本各自对应的隐层向量序列分别输入质量评估模型，得到各候选文本各自相应的质量评估得分；按照各质量评估得分对相应的候选文本进行排序。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行模型训练方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该模型训练装置的各个程序模块，比如，图8所示的获取模块801、生成模块802、确定模块803和训练模块804。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的模型训练方法中的步骤。

例如，图10所示的计算机设备可以通过如图8所示的模型训练装置800中的获取模块801执行获取训练文本对；训练文本对包括相对应的源文本和期望文本。通过生成模块802执行将源文本输入翻译模型，生成与源文本相对应的翻译文本。通过获取模块801执行获取翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本；隐层向量融合了源文本和翻译文本。通过确定模块803执行根据翻译文本与期望文本，确定训练样本相应的训练标签。通过训练模块804执行通过训练样本和相应的训练标签训练质量评估模型。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述模型训练方法的步骤。此处模型训练方法的步骤可以是上述各个实施例的模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述模型训练方法的步骤。此处模型训练方法的步骤可以是上述各个实施例的模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种模型训练方法，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述源文本输入翻译模型，生成与所述源文本相对应的翻译文本，包括：

通过翻译模型的编码器对所述源文本进行语义编码，得到语义向量序列；

通过所述翻译模型的解码器，根据所述翻译模型前次输出的目标词及前次输出的目标词的隐层向量，对所述语义向量序列进行解码得到当次的隐层向量；

根据所述当次的隐层向量，确定所述翻译模型当次输出的目标词；

根据所述翻译模型输出的各目标词，生成所述源文本对应的翻译文本。

3.根据权利要求2所述的方法，其特征在于，所述获取所述翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本，包括：

获取通过所述翻译模型中解码器包括的隐层依次输出的隐层向量；

将各所述隐层向量按输出的时间顺序排列得到隐层向量序列；

获取所述隐层向量序列作为质量评估模型的训练样本。

4.根据权利要求1所述的方法，其特征在于，所述根据所述翻译文本与所述期望文本，确定所述训练样本相应的训练标签，包括：

按照预设的文本匹配方式，计算所述翻译文本与所述期望文本的匹配度；

将所述匹配度作为所述训练样本相应的训练标签。

5.根据权利要求1所述的方法，其特征在于，所述通过所述训练样本和相应的训练标签训练所述质量评估模型，包括：

将所述训练样本输入所述质量评估模型，得到质量评估得分；

根据所述质量评估得分和所述训练标签的差异构造损失函数；

固定所述翻译模型的模型参数，按照最小化所述损失函数的方向调整所述质量评估模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

6.根据权利要求4所述的方法，其特征在于，所述将所述训练样本输入所述质量评估模型，得到质量评估得分，包括：

通过所述质量评估模型的多个循环神经网络单元，逐个对所述训练样本进行运算，得到与所述训练样本对应的质量评估向量；

对所述质量评估向量进行线性变换和非线性变换中的至少一种变换，得到由所述质量评估向量映射至的质量评估得分。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当选择训练翻译模型时，则将翻译模型的隐层所输出的隐层向量输入质量评估模型，得到质量评估得分；

根据所述质量评估得分确定所述翻译模型的损失函数；

按照最小化所述损失函数的方向训练翻译模型；

当选择训练质量评估模型时，则继续执行所述获取所述翻译模型的隐层所输出的隐层向量作为质量评估模型的训练样本的步骤。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述翻译模型的源端单训练样本；

将所述源端单训练样本输入翻译模型，获取所述翻译模型的隐层所输出的隐层向量输入所述质量评估模型，得到质量评估得分；

根据所述质量评估得分，确定所述翻译模型的损失函数；

按照最小化所述损失函数的方向调整所述翻译模型的模型参数并继续训练，直至满足训练停止条件时结束训练。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述源文本输入翻译模型，得到多个预测文本和各所述预测文本各自对应的翻译概率；

基于所述多个预测文本中与所述期望文本匹配的预测文本所对应的翻译概率，构建训练目标预训练所述翻译模型；

所述将所述源文本输入翻译模型，生成与所述源文本相对应的翻译文本，包括：

将所述源文本输入预训练得到的翻译模型，生成与所述源文本相对应的翻译文本。

10.根据权利要求1-9中任一项所述的方法，其特征在于，所述方法还包括：

获取待翻译文本；

将所述待翻译文本输入所述翻译模型，得到多个候选文本；

将所述多个候选文本各自对应的隐层向量序列分别输入所述质量评估模型，得到各所述候选文本各自相应的质量评估得分；

按照各所述质量评估得分对相应的候选文本进行排序。

11.一种模型训练装置，包括：

12.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。