CN114580444A

CN114580444A - 文本翻译模型的训练方法、设备及存储介质

Info

Publication number: CN114580444A
Application number: CN202210220427.7A
Authority: CN
Inventors: 张通; 杨宝嵩; 任星彰; 刘大一恒; 张海波; 谢军
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-06-03

Abstract

本申请提供一种文本翻译模型的训练方法、设备及存储介质，其中训练方法包括：通过接收来自客户端的包含多对自然语言文本的文本训练样本集，基于词级别的对比学习，同时结合自然语言文本的词频信息，对文本翻译模的模型参数进行优化，通过多轮训练，直至文本翻译模型的损失函数收敛时，获取最终的文本翻译模型，文本翻译模型用于将一种自然语言文本翻译成另一种自然语言文本。由于上述训练过程可基于词频信息优化文本翻译模型的模型参数，从而优化不同词频的词的语义空间表示，增强模型对输入文本的语义表达能力，提高机器翻译模型的性能。

Description

文本翻译模型的训练方法、设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本翻译模型的训练方法、设备及存储介质。

背景技术

在机器翻译任务中，Transformer模型是一个利用注意力机制来提高模型训练速度的模型，是当前最常用的深度学习模型。通常情况下，Transformer模型包括编码模块和解码模块，输入文本先经过编码模块，对该文本进行编码，然后将编码后的数据再传入解码模块进行解码，解码后得到翻译后的文本。

然而，由于机器翻译语料中低频词的存在，在模型训练时，这些词极少地出现在模型的输出端，其表示会被优化推向大多高频词表示的反方向，这会导致表示空间中样本表示塌缩到一个更狭窄的锥体中，使得不同目标词表示之间的边界变小，语义表示能力变差。语义塌缩问题会严重影响Transformer模型的语义空间的表示能力，进而影响机器翻译的效果。

发明内容

本申请实施例提供一种文本翻译模型的训练方法、设备及存储介质，提高文本翻译模型的翻译效果。

本申请实施例的第一方面提供一种文本翻译模型的训练方法，包括：

接收来自客户端的文本训练样本集，所述文本训练样本集包括多对自然语言文本，每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本；

根据所述文本训练样本集中自然语言文本的词频信息，对初始文本翻译模型的模型参数进行优化，直至所述文本翻译模型的损失函数收敛时，获取最终的文本翻译模型；所述词频信息用于指示自然语言文本中每个词在所述文本训练样本集的出现次数，所述文本翻译模型用于将所述第一自然语言文本翻译成所述第二自然语言文本。

本申请第一方面的一个可选实施例中，所述根据所述文本训练样本集中自然语言文本的词频信息，对初始文本翻译模型的模型参数进行优化，包括：

从所述文本训练样本集中随机选取至少一对自然语言文本；

将所述至少一对自然语言文本的第一自然语言文本作为所述初始文本翻译模型的输入，将所述至少一对自然语言文本的第二自然语言文本作为所述初始文本翻译模型的输出；

根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的出现次数，对所述初始文本翻译模型的模型参数进行优化。

本申请第一方面的一个可选实施例中，所述根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的词频信息，对所述初始文本翻译模型的模型参数进行优化，包括：

获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词以及负例样本词，所述目标词为所述第二自然语言文本中的任意一个词；

根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数，对所述初始文本翻译模型的模型参数进行优化。

本申请第一方面的一个可选实施例中，所述根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数，对所述初始文本翻译模型的模型参数进行优化，包括：

根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数，调整所述目标词与所述正例样本词之间的隐层表示间隔以及所述目标词与所述负例样本词之间的隐层表示间隔，所述隐层表示间隔用于指示两个词在表示空间的距离；

获取优化后的文本翻译模型的模型参数。

本申请第一方面的一个可选实施例中，获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词，包括：

将所述至少一对自然语言文本的第二自然语言文本中与所述目标词相同的词作为所述目标词的正例样本词；和/或

通过随机丢弃所述文本翻译模型中的部分神经网络节点，获取所述目标词的正例样本词。

本申请第一方面的一个可选实施例中，获取所述至少一对自然语言文本的第二自然语言文本中目标词的负例样本词，包括：

将所述至少一对自然语言文本的第二自然语言文本中与所述目标词不同的词作为所述目标词的负例样本词。

本申请第一方面的一个可选实施例中，所述文本翻译模型的损失函数包括第一损失函数和第二损失函数；

其中，所述第一损失函数是根据所述文本翻译模型的预测概率分布以及所述至少一对自然语言文本的第二自然语言文本确定的；

所述第二损失函数是根据所述至少一对自然语言文本的第二自然语言文本中每个词、所述每个词的正例样本词以及负例样本词在所述文本翻译模型的隐层表示，以及任意两个词之间的词频权重确定的。

本申请第一方面的一个可选实施例中，所述任意两个词之间的词频权重是根据所述任意两个词的每个词在所述文本训练样本集的词频信息确定的。

本申请实施例的第二方面提供一种文本翻译模型的训练装置，包括：

接收模块，用于接收来自客户端的文本训练样本集，所述文本训练样本集包括多对自然语言文本，每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本；

处理模块，用于根据所述文本训练样本集中自然语言文本的词频信息，对初始文本翻译模型的模型参数进行优化，直至所述文本翻译模型的损失函数收敛时，获取最终的文本翻译模型；所述词频信息用于指示自然语言文本中每个词在所述文本训练样本集的出现次数，所述文本翻译模型用于将所述第一自然语言文本翻译成所述第二自然语言文本。

本申请第二方面的一个可选实施例中，所述处理模块，用于：

从所述文本训练样本集中随机选取至少一对自然语言文本；

本申请第二方面的一个可选实施例中，获取模块，用于获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词以及负例样本词，所述目标词为所述第二自然语言文本中的任意一个词；

所述处理模块，用于根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数，对所述初始文本翻译模型的模型参数进行优化。

所述获取模块，用于获取优化后的文本翻译模型的模型参数。

本申请第二方面的一个可选实施例中，所述获取模块，用于：

本申请第二方面的一个可选实施例中，所述文本翻译模型的损失函数包括第一损失函数和第二损失函数；

本申请第二方面的一个可选实施例中，所述任意两个词之间的词频权重是根据所述任意两个词的每个词在所述文本训练样本集的词频信息确定的。

本申请实施例的第三方面提供一种电子设备，包括：存储器，处理器以及计算机程序；所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。

本申请实施例的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。

本申请实施例的第五方面提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。

本申请实施例提供一种文本翻译模型的训练方法、设备及存储介质，其中训练方法包括：通过接收来自客户端的包含多对自然语言文本的文本训练样本集，基于词级别的对比学习，同时结合自然语言文本的词频信息，对文本翻译模的模型参数进行优化，通过多轮训练，直至文本翻译模型的损失函数收敛时，获取最终的文本翻译模型，文本翻译模型用于将一种自然语言文本翻译成另一种自然语言文本。由于上述训练过程可基于词频信息优化文本翻译模型的模型参数，从而优化不同词频的词的语义空间表示，增强模型对输入文本的语义表达能力，提高机器翻译模型的性能。

附图说明

图1为本申请实施例提供的文本翻译模型的训练方法的场景示意图；

图2为本申请实施例提供的文本翻译模型的训练方法的流程示意图一；

图3为本申请实施例提供的文本翻译模型的结构示意图；

图4为本申请实施例提供的文本翻译模型的训练样本的示意图；

图5为本申请实施例提供的文本翻译模型的训练方法的流程示意图二；

图6为本申请实施例提供的文本翻译模型的训练样本的实例示意图；

图7为本申请实施例提供的文本翻译模型的训练装置的结构示意图；

图8为本申请实施例提供的电子设备的硬件结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例的说明书、权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述之外的顺序实施。

应当理解，本文中使用的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请实施例的描述中，术语“对应”可表示两者之间具有直接对应或间接对应的关系，也可以表示两者之间具有关联关系，也可以是指示与被指示、配置与被配置等关系。

下面首先对本申请实施例涉及到的专业术语进行简要说明。

第一，机器翻译：借由计算机程序将文本从一种自然语言翻译成另一种自然语言的方法，例如将中文文本翻译成英文文本。

第二，表示塌缩：使用大型语料集训练机器翻译模型，大部分单词的词向量会退化并分布在高维空间的一个狭小锥形中，从而影响单词表征向量的效果。

第三，自监督学习：利用辅助任务从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。也就是说，自监督学习的监督信息不是人工标注的，而是算法在大规模无监督数据中自动构造监督信息，来进行监督学习或训练。也称之为无监督预训练方法或无监督学习方法。

第四，对比学习：典型的判别式自监督学习，其指导原则是通过自动构造相似实例(正实例)和不相似实例(负实例)，要求习得一个表示学习模型，通过这个模型，使得相似的实例在表示空间中距离比较接近，而不相似的实例在表示空间中距离比较远。

第五，dropout：作为训练深度神经网络的一种方式，在每个训练批次中，通过忽略一半的特征检测器，即让一半的隐层节点值为0，可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用，检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。

第六，自注意力机制：是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，随着计算机运算能力的提升和多语言信息资源的爆发式增长，机器翻译技术逐渐走出象牙塔，开始为普通用户提供实时便捷的翻译服务。

在机器翻译任务中，以transformer为代表的序列到序列模型，由于共享解码器的输入嵌入矩阵和输出嵌入矩阵的参数矩阵，通常会面临表示坍塌问题，该问题会导致低频词在表示空间内相对聚集，从而影响模型对低频词的预测效果。

本申请针对机器翻译表示塌缩的问题，在机器翻译任务中引入对比学习的方法来优化目标嵌入(target embedding)空间和标签嵌入(label embedding)空间的语义表示能力(可以理解为优化翻译模型中编码模块/编码器的输入嵌入矩阵和输出嵌入矩阵)，从而提高机器翻译模型的效果。通过引入基于dropout的对比学习、基于词级别的对比学习(token-level contrastive learning，TCL)来增强模型对样本的语义表示能力，优化类别表示边界。具体的，基于词级别的对比学习，根据词的类别(主要分为相同的词和不同的词)，拉近相同类别词(即位于句子不同位置处的相同的词)的隐层表示间隔，同时拉开句子(mini-batch)内不同类别词(即不同的词)的隐层表示间隔。为了保证每个词在句子内至少包含一个正例样本词(该词在句子其他位置处重复出现)，引入基于dropout的对比学习为每个词分配一个人工正例样本词。

同时，为了进一步优化标签嵌入的语义空间，本申请提出基于词频的对比学习(frequency-aware contrastive learning，FCL)，通过样本的词频信息调整负样本的权重来决定负样本推远的程度，从而优化语义空间，缓解表示坍塌问题，提高机器翻译模型的性能，尤其提高机器翻译模型对低频词的翻译效果。

图1为本申请实施例提供的文本翻译模型的训练方法的场景示意图。如图1所示，本实施例提供的场景包括客户端以及模型训练平台，模型训练平台预配置有文本翻译模型的训练算法。作为一种示例，企业用户通过客户端访问模型训练平台，只需要将其收集到的相关领域的文本训练数据上传模型训练平台即可，模型训练平台基于基础文本翻译模型、预配置的文本翻译模型的训练算法以及文本训练数据，对模型参数进行优化，最终向用户输出满足收敛条件的文本翻译模型，即训练好的文本翻译模型。

基于上述应用场景，下面通过具体实施例对本申请实施例提供的技术方案进行详细说明。需要说明的是，本申请实施例提供的技术方案可以包括以下内容中的部分或全部，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请实施例提供的文本翻译模型的训练方法的流程示意图一。如图2所示，本实施例的文本翻译模型的训练方法，包括如下步骤：

步骤101、客户端向文本翻译模型的训练装置发送文本训练样本集，文本训练样本集包括多对自然语言文本，每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本。

本申请实施例中，当客户端检测到上传指令时，向文本翻译模型的训练装置发送文本训练样本集。在文本训练样本集中，第一自然语言文本与第二自然语言文本为不同的自然语言文本。例如第一自然语言文本为中文文本，第二自然语言文本为英文文本；又例如第一自然语言文本为法文文本，第二自然语言文本为中文文本。

将含义相同的第一自然语言文本和第二自然语言文本作为参与模型训练的一对自然语言文本。可选的，第一自然语言文本是模型的输入文本，第二自然语言文本是模型的输出文本；或者，第二自然语言文本是模型的输入文本，第一自然语言文本是模型的输出文本。

步骤102、文本翻译模型的训练装置根据文本训练样本集中自然语言文本的词频信息，对初始文本翻译模型的模型参数进行优化，直至文本翻译模型的损失函数收敛时，获取最终的文本翻译模型。

其中，词频信息用于指示自然语言文本中每个词在文本训练样本集的出现次数。文本翻译模型用于将第一自然语言文本翻译成第二自然语言文本。

本申请实施例的一个可选实施例中，文本翻译模型可采用现有的transformer模型。下面通过附图3对模型的内部结构作简要说明。图3为本申请实施例提供的文本翻译模型的结构示意图。如图3所示，文本翻译模型包括编码模块以及解码模块。具体的，将第一自然语言文本输入transformer模型后，首先经过transformer模型的编码模块，对第一自然语言文本进行编码，然后将编码后的数据输入transformer模型的解码模块进行解码，最终得到与第一自然语言文本对应的第二自然语言文本，即翻译后的文本。其中，文本翻译模型中的编码模块也可称为编码器，解码模块也可称为解码器。

transformer模型的编码模块通常包括多个编码单元，transformer模型的解码模块通常也包括多个解码单元，例如编码模块包括6个编码单元，解码模块包括6个解码单元。其中，每个编码单元包括多个神经元节点，每个解码单元也同样包括多个神经元节点，神经元节点可以理解为transformer模型的基本单元。

具体的，在编码模块，每个编码单元的输入是前一个编码单元的输出。在解码模块，每个解码单元的输入不仅包括其前一个解码单元的输出，还包括整个编码部分的输出。

本申请实施例中，在模型训练的准备阶段，可以从文本训练样本集中随机选取多组训练样本，每组训练样本包括至少一对自然语言文本。在模型训练阶段，依次根据每组训练样本进行对比学习。

需要指出的是，为了达到更好的学习效果，通常是将多对自然语言文本作为一组训练样本进行对比学习，例如以几十或上百对自然语言文本作为一组训练样本进行对比学习。

本申请实施例的一个可选实施例中，根据文本训练样本集中自然语言文本的词频信息，对初始文本翻译模型的模型参数进行优化，具体包括：

步骤1021、从文本训练样本集中随机选取至少一对自然语言文本。

步骤1022、将至少一对自然语言文本的第一自然语言文本作为初始文本翻译模型的输入，将至少一对自然语言文本的第二自然语言文本作为初始文本翻译模型的输出。

步骤1023、根据至少一对自然语言文本的第二自然语言文本中每个词在文本训练样本集的出现次数，对初始文本翻译模型的模型参数进行优化。

具体的，根据至少一对自然语言文本的第二自然语言文本中每个词在文本训练样本集的出现次数，可调整第二自然语言文本中每个词在文本翻译模型的隐层表示，从而优化文本翻译模型的模型参数，提升模型输出的翻译文本的质量。

其中，对初始文本翻译模型的模型参数进行优化，包括：对文本翻译模型中编码模块和解码模块的模型参数进行优化。

下面以两对自然语言文本作为一组训练样本，对文本翻译模型的训练过程进行举例。图4为本申请实施例提供的文本翻译模型的训练样本的示意图。如图4所示，文本训练样本集包括多条句子对，如图4中的{x₁，y₁}，{x₂，y₂}，…，{x_n，y_n}。其中{x₁，x₂，…，x_n}为第一自然语言文本，{y₁，y₂，…，y_n}为第二自然语言文本。从文本训练样本集中随机选取两对自然语言文本作为一组训练样本，进行模型训练，例如选取{x₁，x₂，y₁，y₂}进行模型训练。具体的，将句子对{x₁，x₂}作为文本翻译模型的输入文本，句子对{y₁，y₂}作为文本翻译模型的输出文本，基于{y₁，y₂}的词频信息，调整{y₁，y₂}中每个词在文本翻译模型的隐层表示，从而优化文本翻译模型的模型参数。同理，采用多对自然语言文本作为一组训练样本，对文本翻译模型的训练过程与本示例类似，此处不再展开。

基于多组训练样本，对初始文本翻译模型进行多轮模型训练，直至文本翻译模型的损失函数收敛，获取最终的文本翻译模型。本申请实施例中，文本翻译模型的损失函数包括第一损失函数和第二损失函数。其中，第一损失函数是基于传统NMT(Neural MachineTranslation，神经网络机器翻译)的损失函数，第二损失函数是基于词频的对比学习的损失函数，第二损失函数是本申请实施例特有的损失函数。

针对某一组训练样本，第一损失函数可根据文本翻译模型的预测概率分布以及该组训练样本(即至少一对自然语言文本)的第二自然语言文本确定。其中，文本翻译模型的预测概率分布可以理解为将该组训练样本的第一自然语言文本输入文本翻译模型后模型的输出结果。具体的，文本翻译模型的预测概率分布可通过如下公式表示：

p(y_i|y_＜i，x)∝exp(W_s·s_i) (1)

式中，x表示输入句子，即第一自然语言文本，如图4中的{x₁，x₂}；y表示输出句子，即第二自然语言文本，如图4中的{y₁，y₂}；p(y_i|y_＜i，x)表示第二自然语言文本中第i个词的概率分布；exp()表示指数函数；W_s表示文本翻译模型的编码模块的输出嵌入矩阵；s_i表示第二自然语言文本中第i个词在文本翻译模型的隐层表示。以图4中{y₁，y₂}为例，第二自然语言文本{y₁，y₂}中第i个词的概率分布可以理解为{y₁，y₂}句子中第i个词所在位置的词的概率分布，词的概率分布指示了当前位置是某个词的概率值。

本申请实施例中，文本翻译模型的损失函数可通过如下公式表示：

L＝L_MT+λL_FCL (2)

式中，L_MT为第一损失函数，L_FCL为第二损失函数，λ表示训练预设的超参数，λ为正数。

本申请实施例示出的文本翻译模型的训练方法，通过接收来自客户端的包含多对自然语言文本的文本训练样本集，基于词级别的对比学习，同时结合自然语言文本的词频信息，对文本翻译模的模型参数进行优化，通过多轮训练，直至文本翻译模型的损失函数收敛时，获取最终的文本翻译模型，文本翻译模型用于将一种自然语言文本翻译成另一种自然语言文本。由于上述训练过程可基于词频信息优化文本翻译模型的模型参数，从而优化不同词频的词的语义空间表示，增强模型对输入文本的语义表达能力，提高机器翻译模型的性能。

基于上述实施例的训练思路，下面结合附图5和图6，对文本翻译模型的任意一轮的训练过程进行详细说明。

图5为本申请实施例提供的文本翻译模型的训练方法的流程示意图二，图6为本申请实施例提供的文本翻译模型的训练样本的实例示意图。本实施例提供的训练方法可应用于图1所示的模型训练平台或任意执行该训练方法的设备，如图5所示，本实施例的文本翻译模型的训练方法，包括如下步骤：

步骤201、接收来自客户端的文本训练样本集，文本训练样本集包括多对自然语言文本，每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本。

步骤202、从文本训练样本集中随机选取至少一对自然语言文本。

步骤203、获取至少一对自然语言文本的第二自然语言文本中目标词的正例样本词以及负例样本词。其中，目标词为第二自然语言文本中的任意一个词。

本申请实施例的一个可选实施例中，将至少一对自然语言文本的第二自然语言文本中与目标词不同的词作为目标词的负例样本词。目标词的负例样本词的数量通常为多个。

本申请实施例中，第二自然语言文本中目标词的的正例样本词的数量为至少一个，可通过如下几种方式获取目标词的正例样本词。

本申请实施例的一个可选实施例中，将至少一对自然语言文本的第二自然语言文本中与目标词相同的词作为目标词的正例样本词。本实施例中，若第二自然语言文本中包括与目标词相同的词，即有重复的目标词时，可直接将与目标词相同的词作为目标词的一个正例样本词。应理解，通过对比学习在不同上下文中的同一目标词的表示，可优化模型对该目标词的隐层表示。

示例性的，如图6所示，{x₁，x₂}为两对自然语言文本中的第一自然语言文本，即本次训练的输入文本，例如x₁对应的中文文本为“该基因可能导致脱发”，x₂对应的中文文本为“他成为了基因治疗专家”。{y₁，y₂}为两对自然语言文本中的第二自然语言文本，即输入文本对应的翻译文本，例如y₁对应的英文文本为“The gene can be the cause ofalopecia”，y₂对应的英文文本为“He become an expert in gene therapy<pad>”，其中<pad>为文本填充符号。基于上述示例，以y₁中的目标词“gene”为例，可将y₂中的第6个词“gene”作为y₁中目标词“gene”的一个正例样本词。

本申请实施例的一个可选实施例中，通过随机丢弃文本翻译模型中的部分神经网络节点，获取目标词的正例样本词。

具体的，不论本次训练过程中训练样本的第二自然语言文本是否有与目标词相同的词，均可以通过如下步骤获取目标词的正例样本词：将本次训练过程的训练样本的第一自然语言文本输入文本翻译模型，通过随机丢弃文本翻译模型中的部分神经元节点，获取目标词对应的新的隐层表示，根据目标词对应的新的隐层表示可确定目标词的正例样本词(具体指正例样本表示)。

需要说明的是，随机丢弃文本翻译模型中的部分神经元节点，包括：随机丢弃文本翻译模型中的部分隐层节点。例如，文本翻译模型包括多个隐层节点，可随机丢弃n％的隐层节点，丢弃的隐层节点不参与模型训练，示例性的，n取10。应理解，基于不同的文本翻译模型结构(即丢弃文本翻译模型中不同的隐层节点)，同一输入文本在文本翻译模型的隐层表示不同。

本申请实施例的一个可选实施例中，将至少一对自然语言文本的第二自然语言文本中与目标词相同的词作为目标词的正例样本词，以及，通过随机丢弃文本翻译模型中的部分神经网络节点，获取目标词的正例样本词。

步骤204、根据目标词、目标词的正例样本词以及目标词的负例样本词在文本训练样本集的出现次数，对初始文本翻译模型的模型参数进行优化，直至文本翻译模型的损失函数收敛时，获取最终的文本翻译模型。

具体的，根据目标词、目标词的正例样本词以及目标词的负例样本词在文本训练样本集的出现次数，调整目标词与目标词的正例样本词之间的隐层表示间隔以及目标词与目标词的负例样本词之间的隐层表示间隔，从而获取优化后的文本翻译模型的模型参数。其中，隐层表示用于指示两个词在表示空间的距离。优化后的文本翻译模型的模型参数用于确定输入文本(即第一自然语言文本)在文本翻译模型的优化后的隐层表示。

本申请实施例中，第二损失函数是根据至少一对自然语言文本的第二自然语言文本中每个词、每个词的正例样本词以及负例样本词在文本翻译模型的隐层表示，以及任意两个词之间的词频权重确定的。具体的，第二损失函数可通过如下公式表示：

式中，s_i表示一组训练样本的第二自然语言文本中的第i个词在文本翻译模型的隐层表示；s_p表示s_i的正例样本词在文本翻译模型的隐层表示；S_p(i)表示s_i的正例样本词的集合；s_j表示s_i的任意一个正例样本词或者任意一个负例样本词在文本翻译模型的隐层表示；sim()表示余弦相似度函数；ω(i，j)表示任意两个词的词频权重；N表示第二自然语言文本中词的总数。

本申请实施例中，任意两个词之间的词频权重是根据任意两个词的每个词在文本训练样本集的词频信息确定的。具体的，任意两个词之间的词频权重可通过如下公式表示：

ω(i，j)＝γf(y_i)f(y_j) (5)

式中，γ表示放缩参数，γ为非负数，Count(y_i)表示一组训练样本的第二自然语言文本中的第i个词在文本训练样本集的出现次数，Count(y_j)表示一组训练样本的第二自然语言文本中的任意一个词在文本训练样本集的出现次数，其中j取[1，N]，N表示第二自然语言文本中词的总数。

示例性的，如图6所示，s₁至s₈分别为句子y₁“The gene can be the cause ofalopecia”中的每个词在文本翻译模型的隐层表示(具体是指每个词在文本翻译模型的解码模块最后一层的隐层表示)，s₉至s₁₆分别为句子y₂“He become an expert in genetherapy<pad>”中每个词在文本翻译模型的隐层表示。以“gene”为目标词，“gene”在文本翻译模型的隐层表示为s₂，“gene”的正例样本词在文本翻译模型的隐层表示为s₁₂，“gene”的负例样本词在文本翻译模型的隐层表示为s₁、s₃至s₁₃、s₁₅、s₁₆。图6中英文文本中每个词的词频信息通过柱状图表示，高频词的柱状高度相对较高，低频词的柱状高度相对较低。图6右侧示出了英文文本中部分词在表示空间的位置示意，如句子y1中的“gene”(s₂)和“alopecia”(s₈)，以及句子y₂中的“in”(s₁₃)和“gene”(s₁₄)。基于词频的对比学习，可较大程度拉宽低频词“gene”和低频词“alopecia”的隐层表示间隔，较小程度拉宽低频词“gene”和高频词“in”的隐层表示间隔，进一步拉近句子y₁和y₂中同一低频词“gene”的隐层表示间隔。图6中的w(2,8)大于w(2,13)，表示s₂和s₈拉宽程度大于s₂和s₁₃的拉宽程度。

基于上述示例可知，基于词频的对比学习，可优化低频词表示空间，同时提高低频词预测的召回率和精确度，从而得到更优的低频词预测效果。另外，在优化低频词表示空间的同时，也优化了高频词的表示空间，并不会对高频词的预测有负面影响。实验表示，基于本申请实施例的技术方案可以鲁棒地提高高频词和低频词的预测能力。

需要指出的是，基于词级别的对比学习的损失函数可通过如下公式表示：

与公式(4)对比可知，基于词频的对比学习的损失函数L_FCL是在基于词级别的对比学习的损失函数L_TCL的基础上的改进。基于词频的对比学习是通过获取每个词的词频信息来调整词与词之间的隐层表示间隔，从而优化语义空间，提升文本翻译模型的性能。

本申请实施例是在基于词级别的对比学习的基础上，结合基于词频的对比学习，通过调整目标词与其正例样本词之间的隐层表示间隔，以及目标词与其负例样本词之间的隐层表示间隔，例如着重拉宽两个低频词之间的隐层表示间隔，从而优化语义空间，提高文本翻译模型的性能。

上文描述了本申请实施例提供的文本翻译模型的训练方法，下面将描述本申请实施例提供的文本翻译模型的训练装置。本申请实施例可以根据上述方法实施例对文本翻译模型的训练装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现，也可以使用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。

图7为本申请实施例提供的文本翻译模型的训练装置的结构示意图。如图7所示，本实施例提供的文本翻译模型的训练装置300，包括：接收模块301、处理模块302以及获取模块303。

接收模块301，用于接收来自客户端的文本训练样本集，所述文本训练样本集包括多对自然语言文本，每对自然语言文本包括含义相同的第一自然语言文本以及第二自然语言文本；

处理模块302，用于根据所述文本训练样本集中自然语言文本的词频信息，对初始文本翻译模型的模型参数进行优化，直至所述文本翻译模型的损失函数收敛时，获取最终的文本翻译模型；所述词频信息用于指示自然语言文本中每个词在所述文本训练样本集的出现次数，所述文本翻译模型用于将所述第一自然语言文本翻译成所述第二自然语言文本。

本申请实施例的一个可选实施例中，所述处理模块302，用于：

从所述文本训练样本集中随机选取至少一对自然语言文本；

本申请实施例的一个可选实施例中，所述获取模块303，用于获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词以及负例样本词，所述目标词为所述第二自然语言文本中的任意一个词；

所述处理模块302，用于根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数，对所述初始文本翻译模型的模型参数进行优化。

所述获取模块303，用于获取优化后的文本翻译模型的模型参数。

本申请实施例的一个可选实施例中，所述获取模块303，用于：

本申请实施例的一个可选实施例中，所述文本翻译模型的损失函数包括第一损失函数和第二损失函数；

本申请实施例的一个可选实施例中，所述任意两个词之间的词频权重是根据所述任意两个词的每个词在所述文本训练样本集的词频信息确定的。

本实施例提供的文本翻译模型的训练装置，可以执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图8为本申请实施例提供的电子设备的硬件结构图。如图8所示，本实施例提供的电子设备400，包括：存储器401，处理器402以及计算机程序；其中，计算机程序存储在存储器401中，并被配置为由处理器402执行以实现前述任一方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，存储器401既可以是独立的，也可以跟处理器402集成在一起。当存储器401是独立于处理器402之外的器件时，电子设备400还包括：总线403，用于连接存储器401和处理器402。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器402执行以实现如前述任一方法实施例的技术方案。

本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如前述任一方法实施例的技术方案。

本申请实施例还提供了一种芯片，包括：处理模块与通信接口，该处理模块能执行前述任一方法实施例的技术方案。

可选的，该芯片还包括存储模块(如存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例的技术方案。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备中。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例的技术方案的范围。

Claims

1.一种文本翻译模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述文本训练样本集中自然语言文本的词频信息，对初始文本翻译模型的模型参数进行优化，包括：

从所述文本训练样本集中随机选取至少一对自然语言文本；

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一对自然语言文本的第二自然语言文本中每个词在所述文本训练样本集的词频信息，对所述初始文本翻译模型的模型参数进行优化，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标词、所述目标词的正例样本词以及负例样本词在所述文本训练样本集的出现次数，对所述初始文本翻译模型的模型参数进行优化，包括：

获取优化后的文本翻译模型的模型参数。

5.根据权利要求3所述的方法，其特征在于，获取所述至少一对自然语言文本的第二自然语言文本中目标词的正例样本词，包括：

6.根据权利要求3所述的方法，其特征在于，获取所述至少一对自然语言文本的第二自然语言文本中目标词的负例样本词，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述文本翻译模型的损失函数包括第一损失函数和第二损失函数；

8.根据权利要求7所述的方法，其特征在于，

所述任意两个词之间的词频权重是根据所述任意两个词的每个词在所述文本训练样本集的词频信息确定的。

9.一种电子设备，其特征在于，包括：存储器，处理器以及计算机程序；所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-8中任一项所述的方法。

11.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。