CN114548123A

CN114548123A - 机器翻译模型训练方法和装置、及文本翻译方法和装置

Info

Publication number: CN114548123A
Application number: CN202210174302.5A
Authority: CN
Inventors: 张磊
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-02-24
Filing date: 2022-02-24
Publication date: 2022-05-27

Abstract

本申请涉及一种机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、存储介质和计算机程序产品，涉及人工智能技术领域，可用于金融科技领域或其他相关领域。所述方法包括：获取训练样本集；分别采用第一预设算法和第二预设算法对源语言语料进行第一分词处理和第二分词处理，得到第一子词序列和多个第二子词序列；将源语言语料中目标单词在第一子词序列中的第一子序列，与在多个第二子词序列中的第二子序列进行差异度比较，将差异度最大的第二子序列确定为目标单词对应的目标子序列；将目标单词对应的第一子序列替换为目标子序列，用于训练机器翻译模型。采用本方法能够能提高机器翻译模型的翻译准确度，增强机器翻译模型的鲁棒性。

Description

机器翻译模型训练方法和装置、及文本翻译方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着经济全球化和人工智能技术的发展，机器翻译技术在诸多领域得到广泛应用，包括金融科技领域。其中，神经机器翻译(NMT)是采用神经网络来最大化机器翻译性能的技术，即使用双语或多语言的训练语料库训练神经网络，得到机器翻译模型，以用于对输入的源语言文本进行翻译，输出目标语言文本。

在对机器翻译模型训练时，需要对原始的训练语料进行分词处理，目的是将原始的训练语料切分成由多个子词组合成的子词序列，其中子词为翻译的基本单元，然后将分词处理后的训练语料用于训练机器翻译模型。相关技术中，分词处理的方法采用的是字节对编码(Byte Pair Encoding，BPE)方法，然而，通过该方法训练得到的机器翻译模型对有噪声文本的翻译准确度不高，机器翻译模型的鲁棒性较差。亟待一种能提高翻译准确度、增强模型鲁棒性的机器翻译模型训练方法。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高翻译准确度、增强模型鲁棒性的机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种机器翻译模型训练方法。所述方法包括：

获取训练样本集；所述训练样本集包含源语言语料和所述源语言语料对应的目标语言语料；

采用第一预设算法对所述训练样本集进行第一分词处理，得到所述源语言语料对应的第一子词序列、以及所述目标语言语料对应的样本子词序列；

采用第二预设算法对所述源语言语料进行第二分词处理，得到所述源语言语料对应的多个第二子词序列；

将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列，与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较，将差异度最大的第二子序列确定为所述目标单词对应的目标子序列；

在所述源语言语料对应的第一子词序列中，将所述目标单词对应的第一子序列替换为所述目标子序列，得到所述源语言语料对应的样本子词序列；

基于所述源语言语料对应的样本子词序列和所述目标语言语料对应的样本子词序列对机器翻译模型进行训练。

在其中一个实施例中，所述方法还包括：

基于预设采样规则，从所述源语言语料包含的单词中确定目标单词。

在其中一个实施例中，所述基于预设采样规则，从所述源语言语料包含的单词中确定目标单词，包括：

为所述源语言语料包含的每个单词分配随机数，各所述随机数符合均匀分布；

将小于预设阈值的随机数对应的单词，确定为目标单词。

在其中一个实施例中，所述将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列，与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较，将差异度最大的第二子序列确定为所述目标单词对应的目标子序列，包括：

确定所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列，获取所述第一子序列中每个子词对应的第一子词向量，并根据所述第一子词向量确定所述目标单词对应的第一单词向量；

确定所述目标单词在多个所述第二子词序列中对应的第二子序列，针对每个所述第二子序列，获取所述第二子序列中每个子词对应的第二子词向量，并根据所述第二子词向量确定所述目标单词对应的第二单词向量；

确定每个所述第二单词向量与所述第一单词向量的差异度，并将差异度最大的第二单词向量对应的第二子序列确定为所述目标单词对应的目标子序列。

在其中一个实施例中，所述确定每个所述第二单词向量与所述第一单词向量的差异度，包括：

根据所述机器翻译模型的损失函数，计算所述第一子序列中每个子词对应的梯度向量，并根据所述每个子词对应的梯度向量确定所述目标单词对应的梯度向量；

根据所述第一单词向量、每个所述第二单词向量、所述目标单词对应的梯度向量，计算每个所述第二单词向量与所述第一单词向量的差异度。

在其中一个实施例中，所述获取训练样本集，包括：

获取初始训练样本集，并对所述初始训练样本集添加扰动信息，得到训练样本集。

第二方面，本申请还提供了一种文本翻译方法。所述方法包括：

获取以源语言表达的待翻译文本；

将所述待翻译文本输入预先训练的机器翻译模型进行翻译，得到以目标语言表达的翻译结果文本；其中，所述机器翻译模型通过权利要求1至6任一项所述的机器翻译模型训练方法训练得到。

第三方面，本申请还提供了一种机器翻译模型训练装置。所述装置包括：

获取模块，用于获取训练样本集；所述训练样本集包含源语言语料和所述源语言语料对应的目标语言语料；

第一处理模块，用于采用第一预设算法对所述训练样本集进行第一分词处理，得到所述源语言语料对应的第一子词序列、以及所述目标语言语料对应的样本子词序列；

第二处理模块，用于采用第二预设算法对所述源语言语料进行第二分词处理，得到所述源语言语料对应的多个第二子词序列；

第一确定模块，用于将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列，与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较，将差异度最大的第二子序列确定为所述目标单词对应的目标子序列；

替换模块，用于在所述源语言语料对应的第一子词序列中，将所述目标单词对应的第一子序列替换为所述目标子序列，得到所述源语言语料对应的样本子词序列；

训练模块，用于基于所述源语言语料对应的样本子词序列和所述目标语言语料对应的样本子词序列对机器翻译模型进行训练。

在其中一个实施例中，所述装置还包括第二确定模块，用于：

在其中一个实施例中，所述第二确定模块，具体用于：

为所述源语言语料包含的每个单词分配随机数，各所述随机数符合均匀分布；将小于预设阈值的随机数对应的单词，确定为目标单词。

在其中一个实施例中，所述第一确定模块，具体用于：

确定所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列，获取所述第一子序列中每个子词对应的第一子词向量，并根据所述第一子词向量确定所述目标单词对应的第一单词向量；确定所述目标单词在多个所述第二子词序列中对应的第二子序列，针对每个所述第二子序列，获取所述第二子序列中每个子词对应的第二子词向量，并根据所述第二子词向量确定所述目标单词对应的第二单词向量；确定每个所述第二单词向量与所述第一单词向量的差异度，并将差异度最大的第二单词向量对应的第二子序列确定为所述目标单词对应的目标子序列。

在其中一个实施例中，所述第一确定模块，具体用于：

根据所述机器翻译模型的损失函数，计算所述第一子序列中每个子词对应的梯度向量，并根据所述每个子词对应的梯度向量确定所述目标单词对应的梯度向量；根据所述第一单词向量、每个所述第二单词向量、所述目标单词对应的梯度向量，计算每个所述第二单词向量与所述第一单词向量的差异度。

在其中一个实施例中，所述获取模块，具体用于：

第四方面，本申请还提供了一种文本翻译装置。所述装置包括：

获取模块，用于获取以源语言表达的待翻译文本；

翻译模块，用于将所述待翻译文本输入预先训练的机器翻译模型进行翻译，得到以目标语言表达的翻译结果文本；其中，所述机器翻译模型通过第一方面所述的机器翻译模型训练方法训练得到。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面或第二方面所述的方法的步骤。

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或第二方面所述的方法的步骤。

第七方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面或第二方面所述的方法的步骤。

上述机器翻译模型训练方法和装置、文本翻译方法和装置、计算机设备、存储介质和计算机程序产品，通过对训练样本集进行第一分词处理，得到源语言语料对应的第一子词序列和目标语言语料对应的样本子词序列，然后对源语言语料进行第二分词处理，得到源语言语料对应的多个第二子词序列，进而将源语言语料中目标单词在多个第二子词序列中对应的第二子序列，分别与该目标单词在第一子词序列中对应的第一子序列进行差异度比较，将差异度最大的第二子序列作为目标单词对应的目标子序列，然后在源语言语料对应的第一子词序列中，将目标单词对应的第一子序列替换为目标子序列，得到源语言语料对应的样本子词序列，并基于源语言语料对应的样本子词序列和目标语言语料对应的样本子词序列对机器翻译模型进行训练。本方法中，通过在源语言语料对应的第一子词序列中，将目标单词对应的第一子序列替换为与该第一子序列差异度相对最大的目标子序列，由此得到的样本子词序列具有较大的对抗性，基于该样本子词序列对机器翻译模型进行训练，可以提高机器翻译模型的翻译准确度，特别对于有噪声(如拼写错误等)的待翻译文本，该机器翻译模型具有更高的翻译准确度，即机器翻译模型的鲁棒性较强。

附图说明

图1为一个实施例中机器翻译模型训练方法的流程示意图；

图2为一个实施例中确定目标子序列的流程示意图；

图3为一个实施例中确定差异度的流程示意图；

图4为一个实施例中文本翻译方法的流程示意图；

图5为一个实施例中机器翻译模型训练装置的结构框图；

图6为一个实施例中文本翻译装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，在具体介绍本申请实施例的技术方案之前，先对本申请实施例基于的技术背景或者技术演进脉络进行介绍。随着经济全球化和人工智能技术的发展，机器翻译技术在诸多领域得到广泛应用，包括金融科技领域。其中，神经机器翻译(NMT)是采用神经网络来最大化机器翻译性能的技术，使用双语或多语言的训练语料库训练神经网络，得到机器翻译模型，以用于对输入的源语言文本进行翻译，输出目标语言文本。在对机器翻译模型训练时，需要对原始的训练语料进行分词处理，目的是将原始的训练语料切分成由多个子词组合成的子词序列，子词为翻译的基本单元，然后将分词处理后的训练语料用于训练机器翻译模型。相关技术中，分词处理的方法采用的是字节对编码(Byte Pair Encoding，BPE)方法，然而，在需要翻译的文档中，经常会包含一些噪声(如单词拼写错误等)，而采用BPE方法分词处理后的语料训练得到的机器翻译模型，对有噪声文本的翻译准确度不高，模型的鲁棒性较差。基于该背景，申请人通过长期的研发以及实验验证，提出本申请的机器翻译模型训练方法，能提高机器翻译模型的翻译准确度高，特别是对有噪声文本的翻译准确度较高，即训练得到的机器翻译模型的鲁棒性强。另外，需要说明的是，本申请技术问题的发现以及下述实施例介绍的技术方案，申请人均付出了大量的创造性劳动。

在一个实施例中，如图1所示，提供了一种机器翻译模型训练方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该方法包括以下步骤：

步骤101，获取训练样本集。

其中，训练样本集包含源语言语料和源语言语料对应的目标语言语料。

在实施中，可以预先根据翻译场景的需要构建训练语料库，例如翻译场景为将金融科技领域的英文文本翻译为中文文本，则可以选取金融科技领域相关的英文语料和对应的中文语料作为训练语料，并建立训练语料库。终端可以在训练语料库中获取多个训练语料，得到训练样本集，其中，训练样本集中的每一样本包括一个源语言语料和该源语言语料对应的目标语言语料。可选的，终端可以将获取的多个训练语料进行预处理后得到训练样本集。

步骤102，采用第一预设算法对训练样本集进行第一分词处理，得到源语言语料对应的第一子词序列、以及目标语言语料对应的样本子词序列。

在实施中，终端可以采用第一预设算法对训练样本集进行第一分词处理，得到训练样本集中每个源语言语料对应的第一子词序列、以及每个目标语言语料对应的样本子词序列。其中，第一预设算法可以是现有的分词算法，例如采用字节对编码(Byte PairEncoding，BPE)算法。在一个示例中，终端可以调用BPE算法对训练样本集进行处理，具体的，先基于训练样本集构建源语言词表和目标语言词表，词表中包含子词和每个子词对应的子词向量(或称为子词嵌入)，然后再对训练样本集中的每个源语言语料和目标语言语料进行分词处理(即第一分词处理)，以将每个语料切分为由多个子词组合成的子词序列。对于中文语料，其子词可以是一个中文汉字、由若干中文汉字组成的词组或短语等，对于英文等拉丁语系的语料，其子词可以是一个字母、一个单词(word)、或单词的一部分(subword)，即每个单词可以由一个或多个子词组成子词序列，在前述分词处理结果中，可以得到源语言语料中每个单词对应的子词序列。

步骤103，采用第二预设算法对源语言语料进行第二分词处理，得到源语言语料对应的多个第二子词序列。

在实施中，终端可以采用第二预设算法对源语言语料进行第二分词处理，得到源语言语料对应的多个第二子词序列。由于源语言语料中每个单词可以有不同的子词组合方式，根据词表中子词的采样方法、以及子词与语料中每个单词的匹配方法不同，如前向最大匹配方法、后向最大匹配方法、考虑概率的分词方法(如子词正则化方法，即基于一元语言模型，将一个单词产生多种分词结果)等，可以得到不同的子词序列。因而，终端可以采用与第一预设算法不同的分词算法对源语言语料进行分词处理，以得到该源语言语料对应的多个第二子词序列，根据每个第二子词序列，可以确定该源语言语料中每个单词对应的子词序列。在一个示例中，可以采用子词正则化方法，计算源语言语料对应的每个子词序列的概率，即将子词序列中每个子词出现的概率相乘，得到一个子词序列的概率，其中每个子词出现的概率可以通过期望最大化(Expectation-Maximum，简称EM)算法来获得。由此可以得到若干子词序列的概率，进而可以使用基于前向动态规划搜索和反向搜索算法，根据若干子词序列的概率，在若干子词序列中搜索出L个子词序列，作为源语言语料对应的多个(如L个)第二子词序列。

步骤104，将源语言语料中目标单词在第一子词序列中对应的第一子序列，与目标单词在多个第二子词序列中对应的第二子序列进行差异度比较，将差异度最大的第二子序列确定为目标单词对应的目标子序列。

其中，目标单词是源语言语料中包含的单词，例如，可以是源语言语料中包含的全部单词，也可以是部分单词。

为便于区分，将一个语句(或语料)对应的子词序列称为子词序列(如前述的源语言语料对应的第一子词序列和第二子词序列)，将语句中每个单词对应的子词序列称为子序列(如前述的目标单词对应的第一子序列和第二子序列)。

例如，可以将一个源语言语料(一个语句，可表示为X)的单词序列表示为w＝(w₁,…,w_M)，其中，w₁为该语料中的第一个单词，w_M即为该语料中最后一个单词，该语料X包含M个单词。

对于单词序列w中的第j个单词w_j，其对应的子序列可以表示为

其中，

即为第j个单词w_j的第1个子词，该子序列中共包含K个子词。

将该语料X包含的每个单词的子序列，按照单词序列的顺序组合，即得到该语料X对应的子词序列，可表示为：s＝(s₁,…,s_M)，其中，s₁即为单词序列w中的第1个单词w₁对应的子序列s₁。若采用不同的分词方法对语料进行分词处理，得到的该语料对应的子词序列不同，该语料中每个单词在不同的子词序列中对应的子序列可能不同。即，源语言语料中目标单词在第一子词序列中对应的第一子序列，与在第二子词序列中对应的第二子序列可能不同。

在实施中，终端可以将源语言语料中每个目标单词在第一子词序列中对应的第一子序列，与该目标单词在多个第二子词序列中对应的第二子序列进行差异度比较，若有L个第二子词序列，则将L个第二子序列分别与第一子序列进行差异度比较。例如，可以将子序列映射为向量，计算两个向量的相似度，相似度越小，即差异度越大。然后，终端可以将与第一子序列差异度最大的第二子序列确定为目标单词对应的目标子序列。

步骤105，在源语言语料对应的第一子词序列中，将目标单词对应的第一子序列替换为目标子序列，得到源语言语料对应的样本子词序列。

在实施中，终端可以将源语言语料对应的第一子词序列中，将目标单词对应的第一子序列替换为目标子序列，得到源语言语料对应的样本子词序列。例如，对于第一子词序列

其中

表示源语言语料中第j个单词对应的第一子序列，M表示源语言语料包含M个单词。

若源语言语料中的第j个单词为目标单词，则将该目标单词对应的第一子序列

替换为步骤104中确定出的该目标单词对应的目标子序列(可表示为

)，即可得到该源语言语料对应的样本子词序列。

步骤106，基于源语言语料对应的样本子词序列和目标语言语料对应的样本子词序列对机器翻译模型进行训练。

在实施中，终端可以将步骤105中得到的源语言语料对应的样本子词序列、以及步骤102中得到的目标语言语料对应的样本子词序列，用于训练机器翻译模型，具体训练过程可以采用现有的模型训练方法，在此不再赘述。

上述机器翻译模型训练方法中，通过对训练样本集进行第一分词处理，得到源语言语料对应的第一子词序列和目标语言语料对应的样本子词序列，然后对源语言语料进行第二分词处理，得到源语言语料对应的多个第二子词序列，进而将源语言语料中目标单词在多个第二子词序列中对应的第二子序列，分别与该目标单词在第一子词序列中对应的第一子序列进行差异度比较，将差异度最大的第二子序列作为目标单词对应的目标子序列，然后在源语言语料对应的第一子词序列中，将目标单词对应的第一子序列替换为目标子序列，得到源语言语料对应的样本子词序列，并基于源语言语料对应的样本子词序列和目标语言语料对应的样本子词序列对机器翻译模型进行训练。本方法中，通过在源语言语料对应的第一子词序列中，将目标单词对应的第一子序列替换为与该第一子序列差异度相对最大的目标子序列，由此得到的样本子词序列具有较大的对抗性，基于该样本子词序列对机器翻译模型进行训练，可以提高机器翻译模型的翻译准确度，特别对于有拼写错误等噪声的待翻译文本，该机器翻译模型具有更高的翻译准确度，即机器翻译模型的鲁棒性较强。

在一个实施例中，该方法还包括如下步骤：基于预设采样规则，从源语言语料包含的单词中确定目标单词。

在实施中，终端可以基于预设采样规则，从源语言语料包含的单词中选取一部分单词，作为目标单词。例如，终端可以随机采样，选取预设比例的单词作为目标单词。

本实施例中，通过从源语言语料包含的单词中采样部分单词作为目标单词，进而对选取出的目标单词进行子序列差异度比较，仅将部分单词作为目标单词，可以兼顾确定源语言语料对应的样本子词序列的效率、以及样本子词序列的对抗性大小，进而可以兼顾模型训练的整体效率和翻译效果。

在一个实施例中，基于预设采样规则确定目标单词的过程具体包括如下步骤：为源语言语料包含的每个单词分配随机数，各随机数符合均匀分布；将小于预设阈值的随机数对应的单词，确定为目标单词。

本实施例中，终端可以为源语言语料包含的每个单词分配随机数，各随机数符合均匀分布。例如，针对包含M个单词的源语言语料，终端可以生成M个符合均匀分布U(0,1)的随机数(可记为r)，各随机数r与各单词一一对应。然后，终端可以将每个单词对应的随机数与预设阈值(可记为R)进行比较，若M个单词中的第j个单词对应的随机数r小于预设阈值R，则将该第j个单词确定为目标单词。在一个示例中，可以设置预设阈值R＝0.2。

本实施例中，通过为源语言语料包含的每个单词分配符合均匀分布的随机数的方式确定目标单词，可以提高目标单词的选取合理性，进而对目标单词对应的第一子序列进行替换，得到的样本子词序列用于训练机器翻译模型，可以保障机器翻译模型的翻译准确度、增强模型的鲁棒性。

在一个实施例中，如图2所示，步骤104中确定目标子序列的过程具体包括如下步骤：

步骤201，确定源语言语料中目标单词在第一子词序列中对应的第一子序列，获取第一子序列中每个子词对应的第一子词向量，并根据第一子词向量确定目标单词对应的第一单词向量。

在实施中，终端可以在源语言语料对应的第一子词序列中，确定目标单词对应的第一子序列。例如，终端可以根据目标单词在源语言语料中的排序序号(如第j号，即目标单词为第j个单词)，在源语言语料对应的第一子词序列

中，找到对应排序序号的第一子序列

其中，

为第j个单词(为目标单词)对应的第一子序列

中的第一个子词。然后，终端可以获取该子序列(即第一子序列

)中每个子词对应的第一子词向量。例如，终端可以在步骤102中进行第一分词处理时构建词表，故终端可以在该词表中，查找每个子词对应的子词向量。然后，终端可以根据目标单词对应的每个第一子词向量，确定目标单词对应的第一单词向量。例如，终端可以将每个第一子词向量进行拼接，或计算均值，得到第一单词向量。

在一个示例中，可以将每个第一子词向量进行均值计算，即对第一子词向量中同一位数的数值计算均值，得到目标单词对应的第一单词向量，用公式表示为：

其中，

表示源语言语料中的第j个单词(为目标单词)对应的第一单词向量；

表示该目标单词对应的第一子序列

中，第一个子词

对应的第一子词向量；f表示基于每个第一子词向量中同一位数的数值进行均值计算的函数。

步骤202，确定目标单词在多个第二子词序列中对应的第二子序列，针对每个第二子序列，获取第二子序列中每个子词对应的第二子词向量，并根据第二子词向量确定目标单词对应的第二单词向量。

在实施中，终端可以在源语言语料对应的多个第二子词序列中，确定目标单词对应的第二子序列。与确定目标单词对应的第一单词向量的方法类似，针对每个第二子序列，终端可以获取该第二子序列中每个子词对应的第二子词向量，并根据第二子词向量确定目标单词对应的第二单词向量e(s_j)。

步骤203，确定每个第二单词向量与第一单词向量的差异度，并将差异度最大的第二单词向量对应的第二子序列确定为目标单词对应的目标子序列。

在实施中，终端可以将步骤202中得到的每个第二单词向量，分别与步骤201中得到的第一单词向量进行差异度比较，例如可以计算两个向量之间的相似度，相似度越小，差异度越大。然后，终端可以将差异度最大的第二单词向量对应的第二子序列确定为目标单词对应的目标子序列。

本实施例中，通过获取目标单词对应的第一子序列和多个第二子序列中每个子词的子词向量，进而得到目标单词对应的第一单词向量和多个第二单词向量，然后将与第一单词向量差异度最大的第二单词向量对应的第二子序列作为目标单词的目标子序列，由此得到的样本子词序列用于训练机器翻译模型，可以提高机器翻译模型对有噪声文本的翻译准确度和鲁棒性。

在一个实施例中，如图3所示，步骤203中确定差异度的过程具体包括如下步骤：

步骤301，根据机器翻译模型的损失函数，计算第一子序列中每个子词对应的梯度向量，并根据每个子词对应的梯度向量确定目标单词对应的梯度向量。

在实施中，机器翻译模型的损失函数为预先建立的损失函数，在一个示例中，损失函数L(x,y；θ)的公式可以表示为：

其中，X为一个源语言语料对应的子词序列，Y为该源语言语料对应的目标语言语料的子词序列，一个源语言语料和对应的目标语言语料组成一个样本s，D为样本的总数；

表示源语言语料对应的子词序列X中，单词x对应的子序列(

为第一个子词)；

表示目标语言语料对应的子词序列Y中，单词y对应的子序列(

为第一个子词)；θ为该损失函数的参数集；E表示期望；P表示概率；P_seg(·)表示一元语言模型。

在另一个示例中，损失函数L(θ)的公式可以表示为：

终端可以根据机器翻译模型的损失函数，分别对目标单词的第一子序列中每个子词求偏导，计算该子词对应的梯度向量。例如，对于源语言语料中的第j个单词(为目标单词)，其对应的第一子序列可以表示为

其包含K个子词。针对每个子词，根据损失函数L(x,y；θ)对该子词求偏导，得到该子词对应的梯度向量，用公式表示为：

其中，

表示第K个子词

对应的梯度向量。

然后，终端可以根据每个子词对应的梯度向量，计算目标单词对应的梯度向量。例如，可以将每个子词对应的梯度向量进行均值计算，得到目标单词对应的梯度向量，用公式表示为：

其中，

表示源语言语料中的第j个单词(为目标单词)对应的梯度向量，

表示该目标单词对应的第一子序列

中，第K个子词

对应的梯度向量；f表示基于每个子词对应的梯度向量中同一位数的数值进行均值计算的函数。

步骤302，根据第一单词向量、每个第二单词向量、目标单词对应的梯度向量，计算每个第二单词向量与第一单词向量的差异度。

在实施中，终端可以根据第一单词向量

每个第二单词向量e(s_j)、目标单词对应的梯度向量

计算每个第二单词向量e(s_j)与第一单词向量

的差异度。具体的，可以将目标单词对应的梯度向量

(行向量)的转置(列向量)，与第二单词向量e(s_j)和第一单词向量

的差值相乘，得到的乘积即为差异度，乘积越大，差异度越大，然后将差异度最大的第二单词向量对应的第二子序列确定为目标单词对应的目标子序列，用公式表示如下：

其中，

表示目标单词对应的目标子序列，e(s_j)表示目标单词对应的第二单词向量，

表示目标单词对应的第一单词向量，Ω(w_j)表示目标单词对应的多个第二子序列组合成的集合；

表示目标单词对应的梯度向量

的转置。

本实施例中，通过根据机器翻译模型的损失函数计算目标单词对应的梯度向量，进而根据第一单词向量、每个第二单词向量、目标单词对应的梯度向量，计算每个第二单词向量与第一单词向量的差异度，由此可以合理选取出目标单词对应的目标子序列，进而将目标子序列替换得到的训练样本，用于训练机器翻译模型时，可以提高机器翻译模型对有噪声文本的翻译准确度和鲁棒性。

在一个实施例中，步骤101中获取训练样本集的过程具体包括如下步骤：获取初始训练样本集，并对所述初始训练样本集添加扰动信息，得到训练样本集。

在实施中，终端可以对获取的初始训练样本集添加扰动信息，得到具有一定对抗性的训练样本集。

例如，可以使用sentence-piece工具对初始训练样本集添加扰动信息，具体的，可以对初始的训练样本集(即每个初始的源语言语料和目标语言语料)中添加对抗性噪声，得到添加扰动后的训练样本集，用公式表示如下：

其中，E是预设的嵌入矩阵，x_i为初始的训练样本集中的样本x_i，

为添加的对抗性噪声，e_i′是添加扰动后的训练样本集中样本x_i的嵌入向量。

对抗性噪声

可以由如下的公式计算：

其中，ε表示扰动的程度，为预设值，可以设置ε＝0.01；g_i表示损失函数l(X,Y；θ)对训练样本集中一个单词向量计算得到的梯度。

本实施例中，通过对初始的训练样本集(初始的语料库)添加扰动信息，然后将添加扰动信息后的训练样本集用于后续的分词处理，得到的样本子词序列的对抗性更大，进而用于模型训练，可以得到鲁棒性更强的机器翻译模型。

在一个实施例中，如图4所示，还提供了一种文本翻译方法，该方法包括如下步骤：

步骤401，获取以源语言表达的待翻译文本。

在实施中，终端可以获取以源语言表达的待翻译文本，例如，用户可以将待翻译文本录入终端，或者通过终端进行图像识别得到图像中包含的待翻译文本。待翻译文本为以源语言表达的文本，可以是一个单词、短语、语句或由多个语句组成的段落，其中可以包含拼写错误的单词。源语言为训练机器翻译模型时使用的训练样本集中源语言语料的表达语言。

步骤402，将待翻译文本输入预先训练的机器翻译模型进行翻译，得到以目标语言表达的翻译结果文本。

在实施中，终端在获取待翻译文本后，可以将待翻译文本输入预先训练的机器翻译模型，通过机器翻译模型对输入的待翻译文本进行翻译，输出以目标语言表达的翻译结果文本。其中，机器翻译模型通过上述所涉及的机器翻译模型训练方法训练得到。目标语言为训练机器翻译模型时使用的训练样本集中目标语言语料的表达语言。

本实施例中，将通过上述机器翻译模型训练方法训练得到的机器翻译模型，用于对待翻译文本进行翻译，可以得到翻译准确度较高的翻译结果文本，由于该机器翻译模型经过对抗性训练，鲁棒性较强，即使对于包含噪声(如拼写错误等)的待翻译文本，通过该机器翻译模型进行翻译，仍能得到翻译准确度较高的翻译结果文本。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的机器翻译模型训练方法的机器翻译模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个机器翻译模型训练装置实施例中的具体限定可以参见上文中对于机器翻译模型训练方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种机器翻译模型训练装置500，包括：获取模块501、第一处理模块502、第二处理模块503、第一确定模块504、替换模块505和训练模块506，其中：

获取模块501，用于获取训练样本集；训练样本集包含源语言语料和源语言语料对应的目标语言语料。

第一处理模块502，用于采用第一预设算法对训练样本集进行第一分词处理，得到源语言语料对应的第一子词序列、以及目标语言语料对应的样本子词序列。

第二处理模块503，用于采用第二预设算法对源语言语料进行第二分词处理，得到源语言语料对应的多个第二子词序列。

第一确定模块504，用于将源语言语料中目标单词在第一子词序列中对应的第一子序列，与目标单词在多个第二子词序列中对应的第二子序列进行差异度比较，将差异度最大的第二子序列确定为目标单词对应的目标子序列。

替换模块505，用于在源语言语料对应的第一子词序列中，将目标单词对应的第一子序列替换为目标子序列，得到源语言语料对应的样本子词序列。

训练模块506，用于基于源语言语料对应的样本子词序列和目标语言语料对应的样本子词序列对机器翻译模型进行训练。

在一个实施例中，该装置还包括第二确定模块，用于：

基于预设采样规则，从源语言语料包含的单词中确定目标单词。

在一个实施例中，第二确定模块具体用于：

为源语言语料包含的每个单词分配随机数，各随机数符合均匀分布；将小于预设阈值的随机数对应的单词，确定为目标单词。

在一个实施例中，第一确定模块504具体用于：

确定源语言语料中目标单词在第一子词序列中对应的第一子序列，获取第一子序列中每个子词对应的第一子词向量，并根据第一子词向量确定目标单词对应的第一单词向量；确定目标单词在多个第二子词序列中对应的第二子序列，针对每个第二子序列，获取第二子序列中每个子词对应的第二子词向量，并根据第二子词向量确定目标单词对应的第二单词向量；确定每个第二单词向量与第一单词向量的差异度，并将差异度最大的第二单词向量对应的第二子序列确定为目标单词对应的目标子序列。

在一个实施例中，第一确定模块504具体用于：

根据机器翻译模型的损失函数，计算第一子序列中每个子词对应的梯度向量，并根据每个子词对应的梯度向量确定目标单词对应的梯度向量；根据第一单词向量、每个第二单词向量、目标单词对应的梯度向量，计算每个第二单词向量与第一单词向量的差异度。

在一个实施例中，获取模块501具体用于：

获取初始训练样本集，并对初始训练样本集添加扰动信息，得到训练样本集。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本翻译方法的文本翻译装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本翻译装置实施例中的具体限定可以参见上文中对于文本翻译方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种文本翻译装置600，包括：获取模块601和翻译模块602，其中：

获取模块601，用于获取以源语言表达的待翻译文本。

翻译模块602，用于将待翻译文本输入预先训练的机器翻译模型进行翻译，得到以目标语言表达的翻译结果文本；其中，机器翻译模型通过上述所涉及的机器翻译模型训练方法训练得到。

上述机器翻译模型训练装置和文本翻译装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种机器翻译模型训练方法或文本翻译方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本申请提供的机器翻译模型训练方法、装置、计算机设备、存储介质和计算机程序产品涉及人工智能技术领域，可用于金融科技领域或其他相关领域，本申请对机器翻译模型训练方法、装置、计算机设备、存储介质和计算机程序产品的应用领域不做限定。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种机器翻译模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于预设采样规则，从所述源语言语料包含的单词中确定目标单词，包括：

将小于预设阈值的随机数对应的单词，确定为目标单词。

4.根据权利要求1所述的方法，其特征在于，所述将所述源语言语料中目标单词在所述第一子词序列中对应的第一子序列，与所述目标单词在多个所述第二子词序列中对应的第二子序列进行差异度比较，将差异度最大的第二子序列确定为所述目标单词对应的目标子序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定每个所述第二单词向量与所述第一单词向量的差异度，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取训练样本集，包括：

7.一种文本翻译方法，其特征在于，所述方法包括：

获取以源语言表达的待翻译文本；

8.一种机器翻译模型训练装置，其特征在于，所述装置包括：

9.一种文本翻译装置，其特征在于，所述装置包括：

获取模块，用于获取以源语言表达的待翻译文本；

翻译模块，用于将所述待翻译文本输入预先训练的机器翻译模型进行翻译，得到以目标语言表达的翻译结果文本；其中，所述机器翻译模型通过权利要求1至6任一项所述的机器翻译模型训练方法训练得到。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6或权利要求7中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6或权利要求7中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6或权利要求7中任一项所述的方法的步骤。