CN114091577B

CN114091577B - 用于训练模型的方法、装置、设备、介质和程序产品

Info

Publication number: CN114091577B
Application number: CN202111288550.4A
Authority: CN
Inventors: 高鹏至; 何中军; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-12-16
Anticipated expiration: 2041-11-02
Also published as: CN114091577A

Abstract

本公开提供了用于训练模型的方法、装置、设备、介质和程序产品，涉及深度学习领域。具体实现方案为：生成第一扰动数据，第一扰动数据用于对与模型的训练文本相关联的第一词特征表示集进行扰动；生成第一掩码数据和第一互补掩码数据，第一掩码数据用于对第一扰动数据中的第一部分数据进行掩蔽，第一互补掩码数据用于对第一扰动数据中除了第一部分数据之外的数据进行掩蔽；基于第一掩码数据以及第一扰动数据，生成第一掩蔽扰动数据；基于第一互补掩码数据以及第一扰动数据，生成第二掩蔽扰动数据；以及基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集，生成第二词特征表示集，以用于训练模型。由此，能够提高模型的泛化能力和鲁棒性。

Description

用于训练模型的方法、装置、设备、介质和程序产品

技术领域

本公开涉及深度学习领域，尤其涉及用于针对自然语言处理训练模型的方法、装置、电子设备、存储介质和计算机程序产品。

背景技术

用于自然语言处理的模型，诸如文本分类模型、翻译模型等，是互联网常用的服务。近年来，特别是利用了神经网络之后，用于自然语言处理的模型在上述任务上取得了比较明显的进步。但是，由于模型变得越来越复杂，模型训练过拟合与鲁棒性较差的问题也逐渐凸显。

发明内容

本公开提供了一种用于针对自然语言处理训练模型的方法、装置、电子设备、存储介质和计算机程序产品。

根据本公开的第一方面，提供了一种用于针对自然语言处理训练模型的方法，包括：生成第一扰动数据，第一扰动数据用于对第一词特征表示集进行扰动，第一词特征表示集与模型的训练文本相关联；生成第一掩码数据和第一互补掩码数据，第一掩码数据用于对第一扰动数据中的第一部分数据进行掩蔽，第一互补掩码数据用于对第一扰动数据中除了第一部分数据之外的数据进行掩蔽；基于第一掩码数据以及第一扰动数据，生成第一掩蔽扰动数据；基于第一互补掩码数据以及第一扰动数据，生成第二掩蔽扰动数据；以及基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集，生成第二词特征表示集，以用于训练模型。

根据本公开的第二方面，提供了一种用于自然语言处理的方法。该方法包括：获取待处理文本；以及基于所述待处理文本，经由根据本公开的第一方面所述的方法训练而生成的模型，生成处理结果。

根据本公开的第三方面，提供了一种用于针对自然语言处理训练模型的装置，包括：第一扰动数据生成模块，用于生成第一扰动数据，第一扰动数据用于对第一词特征表示集进行扰动，第一词特征表示集与模型的训练文本相关联；第一掩码数据生成模块，用于生成第一掩码数据和第一互补掩码数据，第一掩码数据用于对第一扰动数据中的第一部分数据进行掩蔽，第一互补掩码数据用于对第一扰动数据中除了第一部分数据之外的数据进行掩蔽；第一掩蔽模块，用于基于第一掩码数据以及第一扰动数据，生成第一掩蔽扰动数据；第二掩蔽模块，用于基于第一互补掩码数据以及第一扰动数据，生成第二掩蔽扰动数据；以及第一词特征表示生成模块，用于基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集，生成第二词特征表示集，以用于训练模型。

根据本公开的第四方面，提供了一种用于自然语言处理的装置，包括：文本获取模块，用于获取待处理文本；以及处理结果生成模块，用于基于待处理文本，经由根据本公开的第一方面所述的方法训练而生成的模型，生成处理结果。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行根据第一方面或第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面或第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据第一方面或第二方面所述的方法。

根据本公开的方案，能够提升模型的泛化能力和鲁棒性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。

图1是根据本公开实施例的信息处理环境100的示意图。

图2是根据本公开实施例的用于针对自然语言处理训练模型的方法200的示意图。

图3是根据本公开实施例的用于生成第二词特征表示集的方法300的示意图。

图4是根据本公开实施例的模型400的示意框图。

图5是根据本公开实施例的用于针对自然语言处理训练模型的方法500的示意图。

图6是根据本公开实施例的用于生成第四词特征表示集的方法600的示意图。

图7是根据本公开实施例的用于生成第二词特征表示集或第四词特征表示集的过程700的示意图。

图8是根据本公开实施例的用于针对自然语言处理训练模型的装置800的示意图。

图9是根据本公开实施例的用于自然语言处理的装置900的示意框图。

图10是用来实现本公开实施例的用于针对自然语言处理训练模型的方法或用于自然语言处理的方法的电子设备1000的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如上所述，模型训练过拟合与鲁棒性较差的问题开始凸显。基于扰动的传统模型训练方法主要包括以下三种：1)单词替换，随机地将平行语料中的一部分单词替换为词表中的任意单词；2)单词丢弃，随机地使用全零词向量而不是真实的词向量进行模型训练；3)虚拟对抗训练，通过正则项，使得模型对输入扰动更鲁棒。但是，传统模型训练方法均没有很好地解决模型容易过拟合的问题。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于针对自然语言处理训练模型的方案，在该方案中，计算设备生成第一扰动数据，第一扰动数据用于对第一词特征表示集进行扰动，第一词特征表示集与模型的训练文本相关联。计算设备还生成第一掩码数据和第一互补掩码数据，第一掩码数据用于对第一扰动数据中的第一部分数据进行掩蔽，第一互补掩码数据用于对第一扰动数据中除了第一部分数据之外的数据进行掩蔽。随后，计算设备基于第一掩码数据以及第一扰动数据，生成第一掩蔽扰动数据，以及基于第一互补掩码数据以及第一扰动数据，生成第二掩蔽扰动数据。接着，计算设备基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集，生成第二词特征表示集，以用于训练模型。根据本公开的方案，通过在训练过程中利用互补的掩码数据对扰动数据进行互补掩蔽，并通过经互补掩蔽的扰动数据对训练文本的第一词特征表示集进行扰动，从而生成经扰动的第二词特征表示集，以用于训练模型，能够提升模型的泛化能力和鲁棒性。

在下文中，将结合附图更详细地描述本公开的具体实施例。

图1示出了根据本公开的实施例的信息处理环境100的示例的示意图。如图1所示，信息处理环境100包括计算设备110、用于自然语言处理的模型120、模型120的训练文本130、与训练文本130相关联的第一词特征表示集140、第一扰动数据150、第一掩码数据160、第一互补掩码数据170以及第二词特征表示集180。

计算设备110可以包括服务器、台式计算机、平板计算机、个人计算机等。

用于自然语言处理的模型120例如包括文本分类模型、翻译模型等。模型120可以采用神经网络来实现。

训练文本130可以包括语句。语句中可以具有多个词，例如I个词。针对每个词，可以生成一个词特征表示，例如词向量。每个词的词向量的元素个数可以是相同的，例如d个。因而针对训练文本130，可以生成第一词特征表示集140，第一词特征表示集140可以包括多个词特征表示。第一词特征表示集例如可以采用矩阵的形式，矩阵的每一列可以为一个词向量，矩阵的列数为词的数量，矩阵的行数为词向量的维度，从而该矩阵的维度可以为dxI。例如，训练文本130为“今天是晴天”，其中包括5个词，每个词的词向量的元素个数例如为10个，则第一词特征表示集140可以为10x5的矩阵。

第一扰动数据150的维度可以与第一词特征表示集140相同，例如dxI。第一扰动数据150例如可以是随机生成的。

第一掩码数据160和第一互补掩码数据170的维度可以与第一词特征表示集140的维度相同，例如dxI。第一掩码数据160和第一互补掩码数据170中的元素可以采用二进制，例如0表示掩蔽，1表示不掩蔽。例如，第一掩码数据160可以表示为m_x∈{0，1}^d×I，第一互补掩码数据170可以表示为(1_x-m_x)，其中1_x∈{1}^d×I。

计算设备110用于生成第一扰动数据150，第一扰动数据150用于对第一词特征表示集140进行扰动，第一词特征表示集140与模型120的训练文本130相关联；生成第一掩码数据160和第一互补掩码数据170，第一掩码数据160用于对第一扰动数据150中的第一部分数据进行掩蔽，第一互补掩码数据170用于对第一扰动数据150中除了第一部分数据之外的数据进行掩蔽；基于第一掩码数据160以及第一扰动数据150，生成第一掩蔽扰动数据；基于第一互补掩码数据170以及第一扰动数据150，生成第二掩蔽扰动数据；以及基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集140，生成第二词特征表示集180，以用于训练模型120。

由此，通过在训练过程中利用互补的掩码数据对扰动数据进行互补掩蔽，并通过经互补掩蔽的扰动数据对训练文本的第一词特征表示集进行扰动，从而生成经扰动的第二词特征表示集，以用于训练模型，能够提升模型的泛化能力和鲁棒性。

图2示出了根据本公开的实施例的用于针对自然语言处理训练模型的方法200的流程图。例如，方法200可以由如图1所示的计算设备110来执行。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框202处，计算设备110生成第一扰动数据150，第一扰动数据150用于对第一词特征表示集140进行扰动，第一词特征表示集140与模型120的训练文本130相关联。

在一些实施例中，第一扰动数据150可以使得以下第一项与第二项之间的第一KL(Kullback-Leibler)散度最大化：基于第一词特征表示集140，经由模型120生成的输出结果；以及基于第一词特征表示集140和第一扰动数据150，经由模型120生成的输出结果。使得第一KL散度最大化可通过以下公式(1)来表示。

其中，x表示训练文本130，δ_x表示针对训练文本130的扰动数据，l_KL(x，δ_x，θ)表示第一KL散度，其通过以下公式(2)来定义。通过求解公式(1)可以得到第一扰动数据150。

KL(f(e(x)；θ)||f(e(x)+δ_x；θ)) (2)

其中，f表示模型120，θ表示模型120的当前参数，e(x)表示训练文本130(X)的第一词特征表示集140。KL括号中的前一项表示基于第一词特征表示集140，经由模型120生成的输出结果，KL括号中的后一项表示基于第一词特征表示集140和扰动数据，经由模型120生成的输出结果。

具体来说，计算设备110可以基于第一词特征表示集140，生成第一KL散度的第一偏导数集。例如，可以通过以下公式(3)来求解第一KL散度的第一偏导数集。

其中i表示训练文本130中的第i个词，其中i大于或等于1且小于或等于I，a_i表示第i个词的第一偏导数，

表示将第一KL散度相对于第i个词的词向量求导。

随后，计算设备110可以基于第一偏导数集和第一偏导数集的弗罗贝尼乌斯范数，生成第一扰动数据150。例如，可以通过以下公式(4)来生成第一扰动数据150。

δ′_xi＝∈a_i/||a||F (4)

其中，δ′_xi表示针对训练文本130中的第i个词的扰动，||a||F表示第一偏导数集的弗罗贝尼乌斯范数(Frobeniusnorm，简称F范数)。∈表示预设值，其为用于控制扰动数据的F范数的标量超参数。

由此，通过第一KL散度最大化，使得模型基于第一扰动数据和第一词特征表示集的输出结果最大程度地偏离模型基于第一词特征表示的输出结果，从而有利于提高模型的泛化能力和鲁棒性。

回到图2，在框204处，计算设备110生成第一掩码数据160和第一互补掩码数据170，第一掩码数据160用于对第一扰动数据150中的第一部分数据进行掩蔽，第一互补掩码数据170用于对第一扰动数据150中除了第一部分数据之外的数据进行掩蔽。

以第一词特征表示集为3x3矩阵为例，第一掩码数据160的三行元素例如为(0，0，0)，(0，1，0)，(0，0，0)，则第一互补掩码数据170的三行元素例如为(1，1，1)，(1，0，1)，(1，1，1)，也就是说第一掩码数据160对于3x3矩阵中的第2行第2列的数据之外的数据进行掩蔽，而第一互补掩码数据170对于3x3矩阵中的第2行第2列的数据进行掩蔽，因而第一掩码数据160和第一互补掩码数据170是互补的。

在框206处，计算设备110基于第一掩码数据160以及第一扰动数据150，生成第一掩蔽扰动数据。

例如，可以对第一掩码数据160和第一扰动数据150进行按元素相乘，从而生成第一掩蔽扰动数据。

在框208处，计算设备110基于第一互补掩码数据170以及第一扰动数据150，生成第二掩蔽扰动数据。

例如，可以对第一互补掩码数据170和第一扰动数据150进行按元素相乘，从而生成第二掩蔽扰动数据。

在框210处，计算设备110基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集140，生成第二词特征表示集，以用于训练模型120。

例如，可以将第一掩蔽扰动数据和第一词特征表示集140进行按元素相加，生成第一中间词特征表示集，以及将第二掩蔽扰动数据和第一词特征表示集140进行按元素相加，生成第二中间词特征表示集。随后，基于第一中间词特征表示集和第二中间词特征表示集，例如通过平均或加权，生成第二词特征表示集180。

图3示出了根据本公开的实施例的用于生成第二词特征表示集的方法300的流程图。例如，方法300可以由如图1所示的计算设备110来执行。应当理解的是，方法300还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框302处，计算设备110基于第一掩蔽扰动数据和第一词特征表示集140，生成第一掩蔽扰动结果。

第一掩蔽扰动结果可以通过以下公式(5)来表示。

其中，

表示第一掩蔽扰动结果，e(x)表示第一词特征表示集140，

表示第一掩码数据160和第一扰动数据150按元素相乘生成的第一掩蔽扰动数据。

在框304处，计算设备110基于第二掩蔽扰动数据和第一词特征表示集140，生成第二掩蔽扰动结果。

第二掩蔽扰动结果可以通过以下公式(6)来表示。

其中，

表示第二掩蔽扰动结果，e(x)表示第一词特征表示集140，

表示第一互补掩码数据170和第一扰动数据150按元素相乘生成的第二掩蔽扰动数据。

在框306处，计算设备110基于第一掩蔽扰动结果和第二掩蔽扰动结果，生成第二词特征表示集。

具体来说，计算设备110可以基于预定分布函数，生成权重值。例如，所生成的权重值λ～u(0，1)，其中，u表示均匀分布。

随后，计算设备110可以基于权重值和第一掩蔽扰动结果，生成第一加权结果。计算设备110还可以基于权重值的互补权重值和第二掩蔽扰动结果，生成第二加权结果。互补权重值例如为1-权重值λ。

接着，计算设备110可以基于第一加权结果和第二加权结果，生成第二词特征表示集。第二词特征表示集可以通过以下公式(7)来生成。

其中，r(x)表示第二词特征表示集，λ表示权重值，

表示第一掩蔽扰动结果，

表示第二掩蔽扰动结果。

由此，通过对第一词特征表示集的两个局部扰动的结果进行加权，使得第二词特征表示集能够反映更多样的对抗扰动方向，从而提高模型的泛化能力和鲁棒性。

在一些实施例中，计算设备110还可以基于第一词特征表示集140，经由模型120，生成第一输出结果。第一输出结果可以表示为ω＝f(e(x)，θ)。计算设备110还可以基于第二词特征表示集180，经由模型120，生成第二输出结果。第二输出结果可以表示为f(r(x)；θ)。

接着，计算设备110可以生成第一输出结果与第二输出结果之间的第二KL散度，以及第二输出结果与第一输出结果之间的第三KL散度。第二KL散度可以表示为KL(ω||f(r(x)；θ))。第三KL散度可以表示为KL(f(r(x)；θ)||ω)。

随后，计算设备110可以基于第二KL散度和第三KL散度，生成与训练文本130相关联的损失，以用于更新模型120的参数。例如，可以对第二KL散度和第三KL散度取平均，以生成与训练文本130相关联的损失。例如，损失可以表示为(KL(ω||f(r(x)；θ))+KL(f(r(x)；θ)||ω))/2。

此外，对于批训练中的多个训练文本，计算设备110可以将与多个训练文本相关联的多个损失进行平均，以生成与批训练相关联的损失，以更新模型120的参数。

由此，通过基于未经扰动的原始训练样本输出的第一输出结果和基于经扰动训练样本输出的第二输出结果相互的两个KL散度来生成损失，使得损失能够更对称，从而提升模型的泛化能力和鲁棒性。

图4示出了根据本公开的实施例的模型400的示意框图。如图4所示，模型400包括编码器410和解码器420。例如，模型400可以为翻译模型。模型400的训练文本可以包括源语言文本，例如中文文本，与训练文本相关联的训练标签可以包括目标语言文本，例如英文文本。

源语言文本的第一词特征表示集430可以用作编码器410的输入，目标语言文本的第三词特征表示集450可以用作解码器420的输入。

图5示出了根据本公开的实施例的用于针对自然语言处理训练模型的方法500的流程图。例如，方法500可以由如图1所示的计算设备110来执行。应当理解的是，方法500还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框502处，计算设备110生成第一扰动数据150和第二扰动数据，第一扰动数据150用于对第一词特征表示集430进行扰动，第一词特征表示集430与源语言文本相关联，第二扰动数据用于对与目标语言文本相关联的第三词特征表示集450进行扰动。

在一些实施例中，目标语言文本中可以具有多个词，例如J个词。针对每个词，可以生成一个词特征表示，例如词向量。每个词的词向量的元素个数可以是相同的，例如d个。因而针对目标语言文本，可以生成第三词特征表示集，第三词特征表示集可以包括多个词特征表示。第三词特征表示集例如可以采用矩阵的形式，矩阵的每一列可以为一个词向量，矩阵的列数为词的数量，矩阵的行数为词向量的维度，从而该矩阵的维度可以为dxJ。例如，目标语言文本为“today is sunny”，其中包括3个词，每个词的词向量的元素个数例如为10个，则第一词特征表示集可以为10x3的矩阵。

第二扰动数据的维度可以与第三词特征表示集相同，例如dxJ。第二扰动数据例如可以是随机生成的。

在一些实施例中，第一扰动数据150和第二扰动数据使得以下第一项与第二项之间的第四KL散度最大化：以第一词特征表示集430作为编码器410的输入，以及以第三词特征表示集450作为解码器420的输入，经由模型400生成的输出结果；以及以第一词特征表示集430和第一扰动数据150作为编码器410的输入，以及以第三词特征表示集450和第二扰动数据作为解码器420的输入，经由模型400生成的输出结果。使得第四KL散度最大化可通过以下公式(8)来表示。

其中，x表示源语言文本，y表示目标语言文本，δ_x表示针对源语言文本的扰动数据，δ_y表示针对目标语言文本的扰动数据，l_KL(x，y，δ_x，δ_y，θ)表示第四KL散度，其通过以下公式(9)来定义。通过求解公式(9)可以得到第一扰动数据和第二扰动数据。

KL(f(e(x)，e(y)；θ)||f(e(x)+δ_x，e(y)+δ_y；θ)) (9)其中，f表示模型400，θ表示模型400的当前参数，e(x)表示源语言文本的第一词特征表示集140，e(y)表示目标语言文本的第三词特征表示集。KL括号中的前一项表示以第一词特征表示集430作为编码器410的输入，以及以第三词特征表示集作为解码器420的输入，经由模型400生成的输出结果，KL括号中的后一项表示以第一词特征表示集430和第一扰动数据150作为编码器410的输入，以及以第三词特征表示集450和第二扰动数据作为解码器420的输入，经由模型400生成的输出结果。

具体来说，计算设备110可以基于第一词特征表示集430，生成第四KL散度的第一偏导数集。例如，可以通过以下公式(10)来求解第四KL散度的第一偏导数集。

其中i表示源语言文本中的第i个词，其中i大于或等于1且小于或等于I，a_i表示第i个词的第一偏导数，

表示将第四KL散度相对于第i个词的词向量求导。

随后，计算设备110可以基于第一偏导数集和第一偏导数集的弗罗贝尼乌斯范数，生成第一扰动数据150。具体内容可参见公式(4)部分，这里不再赘述。

具体来说，计算设备110可以基于第三词特征表示集450，生成第四KL散度的第二偏导数集。例如，可以通过以下公式(11)来求解第四KL散度的第一偏导数集。

其中，j表示目标语言文本中的第j个词，其中j大于或等于1且小于或等于J，b_j表示第j个词的第二偏导数，

表示将第四KL散度相对于第j个词的词向量求导。

随后，计算设备110可以基于第二偏导数集和第二偏导数集的弗罗贝尼乌斯范数，生成第二扰动数据。例如，可以通过以下公式(12)来生成第一扰动数据150。

其中，

表示针对目标语言文本中的第j个词的扰动，||b|F表示第二偏导数集的弗罗贝尼乌斯范数(Frobeniusnorm，简称F范数)。∈表示预设值，其为用于控制扰动数据的F范数的标量超参数。

由此，通过第四KL散度最大化，使得模型基于第一扰动数据、源语言文本的第一词特征表示集、第二扰动数据和目标语言文本的第三词特征表示集的输出结果最大程度地偏离模型基于第一词特征表示和第三词特征表示集的输出结果，从而有利于提高模型的泛化能力和鲁棒性。

在框504处，计算设备110生成第一掩码数据160、第一互补掩码数据170、第二掩码数据和第二互补掩码数据。第一掩码数据160用于对第一扰动数据150中的第一部分数据进行掩蔽，第一互补掩码数据170用于对第一扰动数据150中除了第一部分数据之外的数据进行掩蔽。第二掩码数据用于对第二扰动数据中的第二部分数据进行掩蔽，第二互补掩码数据用于对第二扰动数据中除了第二部分数据之外的数据进行掩蔽。

第一掩码数据160和第一互补掩码数据170的生成可参见上文，这里不再赘述。

第二掩码数据和第二互补掩码数据的维度可以与第三词特征表示集450的维度相同，例如dxJ。第二掩码数据和第二互补掩码数据中的元素可以采用二进制，例如0表示掩蔽，1表示不掩蔽。例如，第二掩码数据可以表示为m_y∈{0，1}^d×J，第二互补掩码数据可以表示为(1_y-m_y)，其中1_y∈{1}^d×J。

在框506处，计算设备110基于第一掩码数据160以及第一扰动数据150，生成第一掩蔽扰动数据。

在框508处，计算设备110基于第一互补掩码数据170以及第一扰动数据150，生成第二掩蔽扰动数据。

在框510处，计算设备110基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集430，生成第二词特征表示集440，以用于训练模型400。

在框512处，计算设备110基于第二掩码数据和第二扰动数据，生成第三掩蔽扰动数据。

例如，可以对第二掩码数据和第二扰动数据进行按元素相乘，从而生成第三掩蔽扰动数据。

在框514处，计算设备110基于第二互补掩码数据和第二扰动数据，生成第四掩蔽扰动数据。

例如，可以对第二互补掩码数据和第二扰动数据进行按元素相乘，从而生成第四掩蔽扰动数据。

在框516处，计算设备110基于第三掩蔽扰动数据、第四掩蔽扰动数据和第三词特征表示集450，生成第四词特征表示集460，以作为解码器420的输入来训练模型400。

应当理解，虽然图5中示出了，506-510步骤与512至516步骤是并行执行的，但是这只是举例说明，506-510步骤与512至516步骤可以是按顺序执行的，本公开的范围在此不受限制。

由此，通过在训练过程中利用互补的掩码数据对扰动数据进行互补掩蔽，并通过经互补掩蔽的扰动数据对第一词特征表示集和第三词特征表示进行扰动，从而生成经扰动的第二词特征表示集和经扰动的第四词特征表示集，以用于训练模型，能够提升模型的泛化能力和鲁棒性。

图6示出了根据本公开的实施例的用于生成第四词特征表示集的方法600的流程图。例如，方法600可以由如图1所示的计算设备110来执行。应当理解的是，方法600还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在框602处，计算设备110基于第三掩蔽扰动数据和第三词特征表示集140，生成第三掩蔽扰动结果。

第三掩蔽扰动结果可以通过以下公式(13)来表示。

其中，

表示第三掩蔽扰动结果，e(y)表示第三词特征表示集450，

表示第二掩码数据和第二扰动数据按元素相乘生成的第三掩蔽扰动数据。

在框604处，计算设备110基于第四掩蔽扰动数据和第三词特征表示集450，生成第四掩蔽扰动结果。

第四掩蔽扰动结果可以通过以下公式(14)来表示。

其中，

表示第四掩蔽扰动结果，e(y)表示第三词特征表示集450，

表示第二互补掩码数据和第二扰动数据按元素相乘生成的第四掩蔽扰动数据。

在框606处，计算设备110基于第三掩蔽扰动结果和第四掩蔽扰动结果，生成第四词特征表示集460。

随后，计算设备110可以基于权重值和第三掩蔽扰动结果，生成第三加权结果。计算设备110还可以基于权重值的互补权重值和第四掩蔽扰动结果，生成第四加权结果。互补权重值例如为1-权重值λ。

接着，计算设备110可以基于第三加权结果和第四加权结果，生成第四词特征表示集460。第四词特征表示集460可以通过以下公式(15)来生成。

其中，r(y)表示第四词特征表示集460，λ表示权重值，

表示第三掩蔽扰动结果，

表示第四掩蔽扰动结果。

由此，通过对第三词特征表示集的两个局部扰动的结果进行加权，使得第四词特征表示集能够反映更多样的对抗扰动方向，从而提高模型的泛化能力和鲁棒性。

在一些实施例中，计算设备110还可以基于第一词特征表示集430和第三词特征表示集450，经由模型400，生成第一输出结果，其中第一词特征表示集作为编码器410的输入，第三词特征表示集作为解码器420的输入。第一输出结果可以表示为ω＝f(e(x)，e(y)，θ)。

计算设备110还可以基于第二词特征表示集440和第四词特征表示集460，经由模型，生成第二输出结果，其中第二词特征表示集作为编码器410的输入，第四词特征表示集作为解码器420的输入。第二输出结果可以表示为f(r(x)，r(y)；θ))。

接着，计算设备110可以生成第一输出结果与第二输出结果之间的第五KL散度，以及第二输出结果与第一输出结果之间的第六KL散度。第五KL散度可以表示为KL(ω||f(r(x)，r(y)；θ))。第六KL散度可以表示为KL(f(r(x)，r(y)；θ)||ω)。

随后，计算设备110可以基于第五KL散度和第六KL散度，生成与训练文本130相关联的损失，以用于更新模型400的参数。例如，可以对第二KL散度和第三KL散度取平均，以生成与训练文本130相关联的损失。例如，损失可以表示为(KL(ω||f(r(x)，r(y)；θ))+KL(f(r(x)，r(y)；θ)||ω))/2。

此外，对于批训练中的多个训练文本，计算设备110可以将与多个训练文本相关联的多个损失进行平均，以生成与批训练相关联的损失，以更新模型400的参数。

图7示出了根据本公开的实施例的用于生成第二词特征表示集或第四词特征表示集的过程700的示意图。

第一掩码数据710与第一扰动数据730进行按元素相乘后，生成第一掩蔽扰动数据740。第一互补掩码数据720与第一扰动数据730按元素相乘后，生成第二掩蔽扰动数据750。第一掩蔽扰动数据740与第一词特征表示集760按元素相加后，生成第一掩蔽扰动结果。第二掩蔽扰动数据750与第一词特征表示集760按元素相加后，生成第二掩蔽扰动结果。第一掩蔽扰动结果乘以权重值λ的结果与第二掩蔽扰动结果乘以互补权重值(1-λ)的结果相加，生成第二词特征表示集770。

类似地，第二掩码数据710与第二扰动数据730进行按元素相乘后，生成第三掩蔽扰动数据740。第二互补掩码数据720与第二扰动数据730按元素相乘后，生成第四掩蔽扰动数据750。第三掩蔽扰动数据740与第三词特征表示集760按元素相加后，生成第三掩蔽扰动结果。第四掩蔽扰动数据750与第三词特征表示集760按元素相加后，生成第四掩蔽扰动结果。第三掩蔽扰动结果乘以权重值λ的结果与第四掩蔽扰动结果乘以互补权重值(1-λ)的结果相加，生成第四词特征表示集770。

由此，通过在训练过程中利用互补的掩码数据对扰动数据进行互补掩蔽，生成经互补掩蔽的两个扰动数据，并对第一词特征表示集或第三词特征表示集的两个局部扰动的结果进行加权，使得生成的第二词特征表示集和第四词特征表示集能够反映更多样的对抗扰动方向，能够提升模型的泛化能力和鲁棒性。

本公开的实施例还提供了一种用于自然语言处理的方法。该方法包括：获取待处理文本；以及基于待处理文本，经由根据本公开的上述实施例所述的方法训练而生成的模型，生成处理结果。处理结果例如包括但不限于文本分类结果、目标语言文本等。待处理文本可以包括源语言文本。

由此，能够利用泛化能力和鲁棒性更强的模型来进行自然语言处理。

图8示出了根据本公开的实施例的用于针对自然语言处理训练模型的装置800的示意框图。如图8所示，装置800包括第一扰动数据生成模块810、第一掩码数据生成模块820、第一掩蔽模块830、第二掩蔽模块840以及第一词特征表示生成模块850。

关于第一扰动数据生成模块810，其用于生成第一扰动数据，第一扰动数据用于对第一词特征表示集进行扰动，第一词特征表示集与模型的训练文本相关联。

关于第一掩码数据生成模块820，其用于生成第一掩码数据和第一互补掩码数据，第一掩码数据用于对第一扰动数据中的第一部分数据进行掩蔽，第一互补掩码数据用于对第一扰动数据中除了第一部分数据之外的数据进行掩蔽。

关于第一掩蔽模块830，其用于基于第一掩码数据以及第一扰动数据，生成第一掩蔽扰动数据；

关于第二掩蔽模块840，其用于基于第一互补掩码数据以及第一扰动数据，生成第二掩蔽扰动数据。

关于第一词特征表示生成模块850，其用于基于第一掩蔽扰动数据、第二掩蔽扰动数据和第一词特征表示集，生成第二词特征表示集，以用于训练模型。

在一些实施例中，第一扰动数据使得以下第一项与第二项之间的第一KL散度最大化：基于第一词特征表示集，经由模型生成的输出结果；以及基于第一词特征表示集和第一扰动数据，经由模型生成的输出结果。

在一些实施例中，第一扰动数据生成模块810包括第一偏导数生成子模块以及第一扰动数据生成子模块。第一偏导数生成子模块用于基于第一词特征表示集，生成第一KL散度的第一偏导数集。第一扰动数据生成子模块用于基于第一偏导数集和第一偏导数集的弗罗贝尼乌斯范数，生成第一扰动数据。

在一些实施例中，第一词特征表示生成模块850包括第一掩蔽扰动结果生成子模块、第二掩蔽扰动结果生成子模块以及第二词特征表示集生成子模块。第一掩蔽扰动结果生成子模块用于基于第一掩蔽扰动数据和第一词特征表示集，生成第一掩蔽扰动结果。第二掩蔽扰动结果生成子模块用于基于第二掩蔽扰动数据和第一词特征表示集，生成第二掩蔽扰动结果。第二词特征表示集生成子模块用于基于第一掩蔽扰动结果和第二掩蔽扰动结果，生成第二词特征表示集。

在一些实施例中，第二词特征表示集生成子模块还用于基于预定分布函数，生成权重值；基于权重值和第一掩蔽扰动结果，生成第一加权结果；基于权重值的互补权重值和第二掩蔽扰动结果，生成第二加权结果；以及基于第一加权结果和第二加权结果，生成第二词特征表示集。

在一些实施例中，装置800还包括第一输出结果生成模块、第二输出结果生成模块、KL散度生成模块以及损失生成模块。第一输出结果生成模块用于基于第一词特征表示集，经由模型，生成第一输出结果。第二输出结果生成模块用于基于第二词特征表示集，经由模型，生成第二输出结果。KL散度生成模块用于生成第一输出结果与第二输出结果之间的第二KL散度，以及第二输出结果与第一输出结果之间的第三KL散度。损失生成模块用于基于第二KL散度和第三KL散度，生成与训练文本相关联的损失，以用于更新模型的参数。

在一些实施例中，模型包括编码器和解码器。

在一些实施例中，训练文本包括源语言文本，与训练文本相关联的训练标签包括目标语言文本，以及装置800还包括第二扰动数据生成模块、第二掩码数据生成模块、第三掩蔽扰动模块、第四掩蔽扰动模块以及第二词特征表示生成模块。第二扰动数据生成模块用于生成第二扰动数据，第二扰动数据用于对与目标语言文本相关联的第三词特征表示集进行扰动。第二掩码数据生成模块用于生成第二掩码数据和第二互补掩码数据，第二掩码数据用于对第二扰动数据中的第二部分数据进行掩蔽，第二互补掩码数据用于对第二扰动数据中除了第二部分数据之外的数据进行掩蔽。第三掩蔽扰动模块用于基于第二掩码数据和第二扰动数据，生成第三掩蔽扰动数据。第四掩蔽扰动模块用于基于第二互补掩码数据和第二扰动数据，生成第四掩蔽扰动数据。第二词特征表示生成模块用于基于第三掩蔽扰动数据、第四掩蔽扰动数据和第三词特征表示集，生成第四词特征表示集，以作为解码器的输入来训练模型。

在一些实施例中，第一扰动数据和所述第二扰动数据使得以下第一项与第二项之间的第四KL散度最大化：以第一词特征表示集作为编码器的输入，以及以第三词特征表示集作为解码器的输入，经由模型生成的输出结果；以及以第一词特征表示集和第一扰动数据作为编码器的输入，以及以第三词特征表示集和第二扰动数据作为解码器的输入，经由模型生成的输出结果。

在一些实施例中，第二扰动数据生成模块包括第二偏导数生成子模块以及第二扰动数据生成子模块。第二偏导数生成子模块用于基于第三词特征表示集，生成第四KL散度的第二偏导数集。第二扰动数据生成子模块用于基于第二偏导数集和第二偏导数集的弗罗贝尼乌斯范数，生成第二扰动数据。

在一些实施例中，装置800还包括第一输出结果生成模块、第二输出结果生成模块、KL散度生成模块以及损失生成模块。第一输出结果生成模块用于基于第一词特征表示集和第三词特征表示集，经由模型，生成第一输出结果，其中第一词特征表示集作为编码器的输入，第三词特征表示集作为解码器的输入。第二输出结果生成模块用于基于第二词特征表示集和第四词特征表示集，经由模型，生成第二输出结果，其中第二词特征表示集作为编码器的输入，第四词特征表示集作为解码器的输入。KL散度生成模块用于生成第一输出结果与第二输出结果之间的第五KL散度，以及第二输出结果与第一输出结果之间的第六KL散度。损失生成模块，用于基于第五KL散度和第六KL散度，生成与训练文本相关联的损失，以用于更新模型的参数。

在一些实施例中，模型包括翻译模型。

图9示出了根据本公开的实施例的用于自然语言处理的装置900的示意框图。如图9所示，装置900包括文本获取模块910和处理结果生成模块920。文本获取模块910用于获取待处理文本。处理结果生成模块920用于基于待处理文本，经由根据本公开的实施例所述的方法训练而生成的模型，生成处理结果。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如方法200、300、500、600。例如，在一些实施例中，方法200、300、500、600可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的方法200、300、500、600的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300、500、600。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种用于针对自然语言处理训练模型的方法，包括：

生成第一扰动数据，所述第一扰动数据用于对第一词特征表示集进行扰动，所述第一词特征表示集与所述模型的训练文本相关联；

生成第一掩码数据和第一互补掩码数据，所述第一掩码数据用于对所述第一扰动数据中的第一部分数据进行掩蔽，所述第一互补掩码数据用于对所述第一扰动数据中除了所述第一部分数据之外的数据进行掩蔽；

基于所述第一掩码数据以及所述第一扰动数据，生成第一掩蔽扰动数据；

基于所述第一互补掩码数据以及所述第一扰动数据，生成第二掩蔽扰动数据；以及

基于所述第一掩蔽扰动数据、所述第二掩蔽扰动数据和所述第一词特征表示集，生成第二词特征表示集，以用于训练所述模型，

其中生成所述第二词特征表示集包括：

基于所述第一掩蔽扰动数据和所述第一词特征表示集，生成第一掩蔽扰动结果；

基于所述第二掩蔽扰动数据和所述第一词特征表示集，生成第二掩蔽扰动结果；以及

基于所述第一掩蔽扰动结果和所述第二掩蔽扰动结果，生成所述第二词特征表示集。

2.根据权利要求1所述的方法，其中所述第一扰动数据使得以下第一项与第二项之间的第一KL散度最大化：

基于所述第一词特征表示集，经由所述模型生成的输出结果；以及

基于所述第一词特征表示集和所述第一扰动数据，经由所述模型生成的输出结果。

3.根据权利要求2所述的方法，其中生成所述第一扰动数据包括：

基于所述第一词特征表示集，生成所述第一KL散度的第一偏导数集；以及

基于所述第一偏导数集和所述第一偏导数集的弗罗贝尼乌斯范数，生成所述第一扰动数据。

4.根据权利要求1-3中任一项所述的方法，其中生成所述第二词特征表示集包括：

基于预定分布函数，生成权重值；

基于所述权重值和所述第一掩蔽扰动结果，生成第一加权结果；

基于所述权重值的互补权重值和所述第二掩蔽扰动结果，生成第二加权结果；以及

基于所述第一加权结果和所述第二加权结果，生成所述第二词特征表示集。

5.根据权利要求1-3中任一项所述的方法，还包括：

基于所述第一词特征表示集，经由所述模型，生成第一输出结果；

基于所述第二词特征表示集，经由所述模型，生成第二输出结果；

生成所述第一输出结果与所述第二输出结果之间的第二KL散度，以及所述第二输出结果与所述第一输出结果之间的第三KL散度；以及

基于所述第二KL散度和所述第三KL散度，生成与所述训练文本相关联的损失，以用于更新所述模型的参数。

6.根据权利要求1所述的方法，其中所述模型包括编码器和解码器。

7.根据权利要求6所述的方法，其中所述训练文本包括源语言文本，与所述训练文本相关联的训练标签包括目标语言文本，以及所述方法还包括：

生成第二扰动数据，所述第二扰动数据用于对与所述目标语言文本相关联的第三词特征表示集进行扰动；

生成第二掩码数据和第二互补掩码数据，所述第二掩码数据用于对所述第二扰动数据中的第二部分数据进行掩蔽，所述第二互补掩码数据用于对所述第二扰动数据中除了所述第二部分数据之外的数据进行掩蔽；

基于所述第二掩码数据和所述第二扰动数据，生成第三掩蔽扰动数据；

基于所述第二互补掩码数据和所述第二扰动数据，生成第四掩蔽扰动数据；以及

基于所述第三掩蔽扰动数据、所述第四掩蔽扰动数据和所述第三词特征表示集，生成第四词特征表示集，以作为所述解码器的输入来训练所述模型。

8.根据权利要求7所述的方法，其中所述第一扰动数据和所述第二扰动数据使得以下第一项与第二项之间的第四KL散度最大化：

以所述第一词特征表示集作为所述编码器的输入，以及以所述第三词特征表示集作为所述解码器的输入，经由所述模型生成的输出结果；以及

以所述第一词特征表示集和所述第一扰动数据作为所述编码器的输入，以及以所述第三词特征表示集和所述第二扰动数据作为所述解码器的输入，经由所述模型生成的输出结果。

9.根据权利要求8所述的方法，其中生成所述第二扰动数据包括：

基于所述第三词特征表示集，生成所述第四KL散度的第二偏导数集；以及

基于所述第二偏导数集和所述第二偏导数集的弗罗贝尼乌斯范数，生成所述第二扰动数据。

10.根据权利要求7-9中任一项所述的方法，还包括：

基于所述第一词特征表示集和所述第三词特征表示集，经由所述模型，生成第一输出结果，其中所述第一词特征表示集作为所述编码器的输入，所述第三词特征表示集作为所述解码器的输入；

基于所述第二词特征表示集和所述第四词特征表示集，经由所述模型，生成第二输出结果，其中所述第二词特征表示集作为所述编码器的输入，所述第四词特征表示集作为所述解码器的输入；

生成所述第一输出结果与所述第二输出结果之间的第五KL散度，以及所述第二输出结果与所述第一输出结果之间的第六KL散度；以及

基于所述第五KL散度和所述第六KL散度，生成与所述训练文本相关联的损失，以用于更新所述模型的参数。

11.根据权利要求6-9中任一项所述的方法，其中所述模型包括翻译模型。

12.一种用于自然语言处理的方法，包括：

获取待处理文本；以及

基于所述待处理文本，经由根据权利要求1-11中任一项所述的方法训练而生成的模型，生成处理结果。

13.一种用于针对自然语言处理训练模型的装置，包括：

第一扰动数据生成模块，用于生成第一扰动数据，所述第一扰动数据用于对第一词特征表示集进行扰动，所述第一词特征表示集与所述模型的训练文本相关联；

第一掩码数据生成模块，用于生成第一掩码数据和第一互补掩码数据，所述第一掩码数据用于对所述第一扰动数据中的第一部分数据进行掩蔽，所述第一互补掩码数据用于对所述第一扰动数据中除了所述第一部分数据之外的数据进行掩蔽；

第一掩蔽模块，用于基于所述第一掩码数据以及所述第一扰动数据，生成第一掩蔽扰动数据；

第二掩蔽模块，用于基于所述第一互补掩码数据以及所述第一扰动数据，生成第二掩蔽扰动数据；以及

第一词特征表示生成模块，用于基于所述第一掩蔽扰动数据、所述第二掩蔽扰动数据和所述第一词特征表示集，生成第二词特征表示集，以用于训练所述模型，

其中所述第一词特征表示生成模块包括：

第一掩蔽扰动结果生成子模块，用于基于所述第一掩蔽扰动数据和所述第一词特征表示集，生成第一掩蔽扰动结果；

第二掩蔽扰动结果生成子模块，用于基于所述第二掩蔽扰动数据和所述第一词特征表示集，生成第二掩蔽扰动结果；以及

第二词特征表示集生成子模块，用于基于所述第一掩蔽扰动结果和所述第二掩蔽扰动结果，生成所述第二词特征表示集。

14.根据权利要求13所述的装置，其中所述第一扰动数据使得以下第一项与第二项之间的第一KL散度最大化：

15.根据权利要求14所述的装置，其中所述第一扰动数据生成模块包括：

第一偏导数生成子模块，用于基于所述第一词特征表示集，生成所述第一KL散度的第一偏导数集；以及

第一扰动数据生成子模块，用于基于所述第一偏导数集和所述第一偏导数集的弗罗贝尼乌斯范数，生成所述第一扰动数据。

16.根据权利要求13-15中任一项所述的装置，其中所述第二词特征表示集生成子模块还用于：

基于预定分布函数，生成权重值；

17.根据权利要求13-15中任一项所述的装置，还包括：

第一输出结果生成模块，用于基于所述第一词特征表示集，经由所述模型，生成第一输出结果；

第二输出结果生成模块，用于基于所述第二词特征表示集，经由所述模型，生成第二输出结果；

KL散度生成模块，用于生成所述第一输出结果与所述第二输出结果之间的第二KL散度，以及所述第二输出结果与所述第一输出结果之间的第三KL散度；以及

损失生成模块，用于基于所述第二KL散度和所述第三KL散度，生成与所述训练文本相关联的损失，以用于更新所述模型的参数。

18.根据权利要求13所述的装置，其中所述模型包括编码器和解码器。

19.根据权利要求18所述的装置，其中所述训练文本包括源语言文本，与所述训练文本相关联的训练标签包括目标语言文本，以及所述装置还包括：

第二扰动数据生成模块，用于生成第二扰动数据，所述第二扰动数据用于对与所述目标语言文本相关联的第三词特征表示集进行扰动；

第二掩码数据生成模块，用于生成第二掩码数据和第二互补掩码数据，所述第二掩码数据用于对所述第二扰动数据中的第二部分数据进行掩蔽，所述第二互补掩码数据用于对所述第二扰动数据中除了所述第二部分数据之外的数据进行掩蔽；

第三掩蔽扰动模块，用于基于所述第二掩码数据和所述第二扰动数据，生成第三掩蔽扰动数据；

第四掩蔽扰动模块，用于基于所述第二互补掩码数据和所述第二扰动数据，生成第四掩蔽扰动数据；以及

第二词特征表示生成模块，用于基于所述第三掩蔽扰动数据、所述第四掩蔽扰动数据和所述第三词特征表示集，生成第四词特征表示集，以作为所述解码器的输入来训练所述模型。

20.根据权利要求19所述的装置，其中所述第一扰动数据和所述第二扰动数据使得以下第一项与第二项之间的第四KL散度最大化：

21.根据权利要求20所述的装置，其中所述第二扰动数据生成模块包括：

第二偏导数生成子模块，用于基于所述第三词特征表示集，生成所述第四KL散度的第二偏导数集；以及

第二扰动数据生成子模块，用于基于所述第二偏导数集和所述第二偏导数集的弗罗贝尼乌斯范数，生成所述第二扰动数据。

22.根据权利要求19-21中任一项所述的装置，还包括：

第一输出结果生成模块，用于基于所述第一词特征表示集和所述第三词特征表示集，经由所述模型，生成第一输出结果，其中所述第一词特征表示集作为所述编码器的输入，所述第三词特征表示集作为所述解码器的输入；

第二输出结果生成模块，用于基于所述第二词特征表示集和所述第四词特征表示集，经由所述模型，生成第二输出结果，其中所述第二词特征表示集作为所述编码器的输入，所述第四词特征表示集作为所述解码器的输入；

KL散度生成模块，用于生成所述第一输出结果与所述第二输出结果之间的第五KL散度，以及所述第二输出结果与所述第一输出结果之间的第六KL散度；以及

损失生成模块，用于基于所述第五KL散度和所述第六KL散度，生成与所述训练文本相关联的损失，以用于更新所述模型的参数。

23.根据权利要求18-21中任一项所述的装置，其中所述模型包括翻译模型。

24.一种用于自然语言处理的装置，包括：

文本获取模块，用于获取待处理文本；以及

处理结果生成模块，用于基于所述待处理文本，经由根据权利要求1-11中任一项所述的方法训练而生成的模型，生成处理结果。

25.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。