CN116306610A

CN116306610A - 模型训练方法及装置、自然语言处理方法及装置

Info

Publication number: CN116306610A
Application number: CN202310141038.XA
Authority: CN
Inventors: 丁亮; 钟起煌; 陶大程
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2023-02-16
Filing date: 2023-02-16
Publication date: 2023-06-23

Abstract

本公开涉及用于自然语言处理的模型训练方法及装置、自然语言处理方法及装置、电子设备、计算机可存储介质，涉及机器学习领域。模型训练方法包括：对训练文本进行加噪，得到第一噪声文本；根据所述第一噪声文本，利用机器学习模型的编码模块，确定所述第一噪声文本的第一编码向量；根据所述第一编码向量，利用分类模型，确定与所述第一噪声文本对应的预测噪声类型；根据所述第一编码向量，利用所述机器学习模型的解码模块，确定第一预测文本；根据所述预测噪声类型和所述第一预测文本，训练所述机器学习模型，其中，所述预测噪声类型用于训练所述编码模块的模型参数，所述第一预测文本用于训练所述编码模块和所述解码模块的模型参数。

Description

模型训练方法及装置、自然语言处理方法及装置

技术领域

本公开涉及机器学习领域，特别涉及用于自然语言处理的模型训练方法及装置、自然语言处理方法及装置、电子设备、计算机可存储介质。

背景技术

自然语言处理是以一种智能与高效的方式对文本数据进行理解与信息提取的过程。基于编码模块和解码模块的机器学习模型是用于自然语言处理的一种常见模型。

相关技术中，对训练文本进行加噪得到噪声文本，该噪声文本作为编码模块的输入，依次经过编码模块和解码模块的处理，得到解码模块输出的预测文本，进而利用解码模块输出的预测文本对机器学习模型的模型参数进行训练。

发明内容

相关技术中，利用解码模块输出的预测文本训练机器学习模型，未充分考虑编码模块对噪声文本中的噪声进行检测和还原能力的训练，编码模块对噪声文本的文本特征学习的准确性有所欠缺。

针对上述技术问题，本公开提出了一种解决方案，可以提高自然语言处理过程中的文本编码的准确性，从而提高自然语言处理的准确性。

根据本公开的第一方面，提供了一种用于自然语言处理的模型训练方法，包括：对训练文本进行加噪，得到第一噪声文本；根据所述第一噪声文本，利用机器学习模型的编码模块，确定所述第一噪声文本的第一编码向量；根据所述第一编码向量，利用分类模型，确定与所述第一噪声文本对应的预测噪声类型；根据所述第一编码向量，利用所述机器学习模型的解码模块，确定第一预测文本；根据所述预测噪声类型和所述第一预测文本，训练所述机器学习模型，其中，所述预测噪声类型用于训练所述编码模块的模型参数，所述第一预测文本用于训练所述编码模块和所述解码模块的模型参数。

在一些实施例中，训练所述机器学习模型包括：根据所述预测噪声类型，确定第一损失值，其中，所述第一损失值表征所述预测噪声类型的准确性；根据所述第一预测文本，确定第二损失值，其中，所述第二损失值表征所述第一预测文本的准确性；根据所述第一损失值和所述第二损失值，训练所述机器学习模型。

在一些实施例中，根据所述预测噪声类型，确定第一损失值包括：获取与所述第一噪声文本对应的标注噪声类型；根据所述标注噪声类型和所述预测噪声类型，确定所述第一损失值，其中，所述第一损失值表征所述预测噪声类型与所述标注噪声类型之间的相似度。

在一些实施例中，根据所述标注噪声类型和所述预测噪声类型，确定所述第一损失值包括：根据所述标注噪声类型和所述预测噪声类型，利用交叉熵损失函数，确定所述第一损失值。

在一些实施例中，所述第一噪声文本包括多个词，所述第一编码向量包括所述第一噪声文本中每个词的第一子编码向量，所述预测噪声类型包括所述第一噪声文本中每个词的预测噪声类型，所述标注噪声类型包括所述第一噪声文本中的每个词的标注噪声类型。

在一些实施例中，根据所述第一预测文本，确定第二损失值包括：根据所述第一噪声文本和所述第一预测文本，确定所述第二损失值，其中，所述第二损失值表征基于所述第一噪声文本得到所述第一预测文本的概率。

在一些实施例中，训练所述机器学习模型包括：对所述训练文本进行加噪，得到第二噪声文本，其中，所述第一噪声文本采用第一加噪方式得到，所述第二噪声文本采用第二加噪方式得到；根据所述第二噪声文本，利用所述编码模块，确定所述第二噪声文本的第二编码向量；根据所述预测噪声类型和所述第一预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型，其中，所述第一编码向量和所述第二编码向量用于训练所述编码模块的模型参数。

在一些实施例中，所述训练文本包括第一训练文本和第二训练文本，每个训练文本对应一个第一噪声文本和一个第二噪声文本，根据所述预测噪声类型和所述第一预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型包括：根据所述训练文本的第一编码向量和第二编码向量，确定第三损失值，其中，所述第三损失值表征所述第一训练文本的第一编码向量与所述第一训练文本的第二编码向量的相似度相对于所述第一训练文本的第二编码向量与所述第二训练文本的第一编码向量和第二编码向量中的至少一种的相似度之间的差异程度；根据所述预测噪声类型和所述第一预测文本、以及所述第三损失值，训练所述机器学习模型。

在一些实施例中，所述训练文本存在多个，根据所述训练文本的第一编码向量和第二编码向量，确定第三损失值包括：对于每个训练文本，确定所述每个训练文本的第一编码向量和第二编码向量之间的相似度，作为所述第一相似度；确定所述每个训练文本的第二编码向量与除所述每个训练文本以外的其他训练文本的第一编码向量和第二编码向量中的至少一种之间的相似度，作为第二相似度；根据与每个训练文本对应的第一相似度和第二相似度，确定所述第三损失值，其中，所述第三损失值与第一相似度成负相关且与第二相似度成正相关。

在一些实施例中，所述第一加噪方式包括随机置换所述训练文本中词的顺序和随机替换所述训练文本中的词中的至少一种以及随机对所述训练文本中的词进行掩码处理；所述第二加噪方式包括随机对所述训练文本中的词进行掩码处理。

在一些实施例中，训练所述机器学习模型包括：对所述训练文本进行加噪，得到第二噪声文本，其中，所述第一噪声文本采用第一加噪方式得到，所述第二噪声文本采用第二加噪方式得到；根据所述第二噪声文本，利用所述编码模块，确定所述第二噪声文本的第二编码向量；根据所述第二编码向量，利用所述解码模块，确定第二预测文本；根据所述预测噪声类型、所述第一预测文本和所述第二预测文本，训练所述机器学习模型，其中，所述第二预测文本用于训练所述编码模块和所述解码模块的模型参数。

在一些实施例中，根据所述预测噪声类型、所述第一预测文本和所述第二预测文本，训练所述机器学习模型包括：根据所述第二预测文本，确定第四损失值，其中，所述第四损失值表征所述第二预测文本的准确性；根据所述预测噪声类型、所述第一预测文本和所述第四损失值，训练所述机器学习模型。

在一些实施例中，根据所述预测噪声类型、所述第一预测文本和所述第二预测文本，训练所述机器学习模型包括：根据所述预测噪声类型、所述第一预测文本、所述第二预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型，其中，所述第一编码向量和所述第二编码向量用于训练所述编码模块的模型参数。

在一些实施例中，所述训练文本包括第一训练文本和第二训练文本，每个训练文本对应一个第一噪声文本，根据所述预测噪声类型、所述第一预测文本、所述第二预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型包括：根据所述预测噪声类型，确定第一损失值，其中，所述第一损失值表征所述预测噪声类型的准确性；根据所述第一预测文本，确定第二损失值，其中，所述第二损失值表征所述第一预测文本的准确性；根据多个训练文本的第一编码向量和第二编码向量，确定第三损失值，其中，所述第三损失值表征所述第一训练文本的第一编码向量与所述第一训练文本的第二编码向量的相似度相对于所述第一训练文本的第二编码向量与所述第二训练文本的第一编码向量和第二编码向量中的至少一种的相似度之间的差异程度；根据所述第二预测文本，确定第四损失值，其中，所述第四损失值表征所述第二预测文本的准确性；根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值，训练所述机器学习模型。

在一些实施例中，根据所述第二预测文本，确定第四损失值包括：根据所述第二噪声文本和所述第二预测文本，确定所述第四损失值，其中，所述第四损失值表征所述第二预测文本与所述第二噪声文本之间的相似度。

根据本公开第二方面，提供了一种自然语言处理方法，包括：获取待处理文本；根据所述待处理文本，利用机器学习模型，确定与所述待处理文本对应的预测文本，其中，所述机器学习模型是利用上述任一实施例所述的模型训练方法得到。

根据本公开第三方面，提供了一种用于自然语言处理的模型训练装置，包括：加噪模块，被配置为对训练文本进行加噪，得到第一噪声文本；第一确定模块，被配置为根据所述第一噪声文本，利用机器学习模型的编码模块，确定所述第一噪声文本的第一编码向量；第二确定模块，被配置为根据所述第一编码向量，利用分类模型，确定与所述第一噪声文本对应的预测噪声类型；第三确定模块，被配置为根据所述第一编码向量，利用所述机器学习模型的解码模块，确定第一预测文本；训练模块，被配置为根据所述预测噪声类型和所述第一预测文本，训练所述机器学习模型，其中，所述预测噪声类型用于训练所述编码模块的模型参数，所述第一预测文本用于训练所述编码模块和所述解码模块的模型参数。

根据本公开第四方面，提供了一种自然语言处理装置，包括：获取模块，被配置为获取待处理文本；确定模块，被配置为根据所述待处理文本，利用机器学习模型，确定与所述待处理文本对应的预测文本，其中，所述机器学习模型是利用上述任一实施例所述的模型训练方法得到。

根据本公开第五方面，提供了一种电子设备，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的模型训练方法或自然语言处理方法。

根据本公开的第六方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的模型训练方法或自然语言处理方法。

在上述实施例中，可以提高自然语言处理过程中的文本编码的准确性，从而提高自然语言处理的准确性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的模型训练方法的流程图；

图2是示出根据本公开一些实施例的训练机器学习模型的流程图；

图3是示出根据本公开一些实施例的模型训练方法的示意图；

图4是示出根据本公开另一些实施例的训练机器学习模型的流程图；

图5是示出根据本公开另一些实施例的模型训练方法的示意图；

图6是示出根据本公开再一些实施例的训练机器学习模型的流程图；

图7是示出根据本公开一些实施例的自然语言处理方法的流程；

图8是示出根据本公开一些实施例的模型训练装置的框图；

图9是示出根据本公开一些实施例的自然语言处理装置的框图；

图10是示出根据本公开一些实施例的电子设备的框图；

图11是示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的模型训练方法的流程图。

如图1所示，用于自然语言处理的模型训练方法包括：步骤S110，对训练文本进行加噪，得到第一噪声文本；步骤S120，根据第一噪声文本，利用机器学习模型的编码模块，确定第一噪声文本的第一编码向量；步骤S130，根据第一编码向量，利用分类模型，确定与第一噪声文本对应的预测噪声类型；步骤S140，根据第一编码向量，利用机器学习模型的解码模块，确定第一预测文本；和步骤S150，根据预测噪声类型和第一预测文本，训练机器学习模型，其中，预测噪声类型用于训练编码模块的模型参数，第一预测文本用于训练编码模块和解码模块的模型参数。

在上述实施例中，通过利用分类模型对编码模块输出的噪声文本的编码向量进行噪声类型预测，在利用解码模块输出的预测文本对机器学习模型的所有模型参数进行训练的基础上，增加利用所预测的噪声类型训练编码模块的模型参数的过程，使得编码模块在训练过程中进一步学习和提升对噪声文本中的噪声检测与还原能力，从而提高自然语言处理过程中的文本编码的准确性，提高模型训练准确性，进而提高自然语言处理的准确性。以文本还原场景为例，可以提高文本还原的准确性。另外，通过引入噪声类型预测监督编码模块的训练过程，引入了去噪自监督信号，从而实现了去噪自监督学习。

在步骤S110中，对训练文本进行加噪，得到第一噪声文本。

在步骤S120中，根据第一噪声文本，利用机器学习模型的编码模块，确定第一噪声文本的第一编码向量。

在步骤S130中，根据第一编码向量，利用分类模型，确定与第一噪声文本对应的预测噪声类型。在一些实施例中，分类模型为预训练后的机器学习模型。例如，分类模型为预训练后的MLP(Multilayer Perceptron，多层感知器)模型。

在步骤S140中，根据第一编码向量，利用机器学习模型的解码模块，确定第一预测文本。

在步骤S150中，根据预测噪声类型和第一预测文本，训练机器学习模型，其中，预测噪声类型用于训练编码模块的模型参数，第一预测文本用于训练编码模块和解码模块的模型参数。

在一些实施例中，可以通过如图2所示的方式实现上述步骤S150。

图2是示出根据本公开一些实施例的训练机器学习模型的流程图。

如图2所示，训练机器学习模型包括步骤S151-步骤S153。

在步骤S151中，根据预测噪声类型，确定第一损失值。第一损失值表征预测噪声类型的准确性。第一损失值用于训练编码模块的模型参数。

在一些实施例中，可以通过如下方式实现根据预测噪声类型确定第一损失值。

首先，获取与第一噪声文本对应的标注噪声类型。

然后，根据标注噪声类型和预测噪声类型，确定第一损失值。第一损失值表征预测噪声类型与标注噪声类型之间的相似度。相似度反映了预测噪声类型与标注噪声类型之间的接近程度。在一些实施例中，可以根据标注噪声类型和预测噪声类型，利用交叉熵损失函数，确定第一损失值。

例如，根据标注噪声类型所对应的标注概率和预测噪声类型所对应的预测概率，利用交叉熵损失函数，确定第一损失值。以分类模型可以实现3分类为例，标注噪声类型所对应的标注概率包括3个，每个标注概率表示标注的词属于相应噪声类型的概率。类似地，预测噪声类型所对应的每个预测概率表示预测出来的词属于相应噪声类型的概率。

在一些实施例中，第一噪声文本包括多个词。在这种情况下，第一编码向量包括第一噪声文本中每个词的第一子编码向量，预测噪声类型包括第一噪声文本中每个词的预测噪声类型，标注噪声类型包括第一噪声文本中每个词的标注噪声类型。

在一些实施例中，第一噪声文本采用第一加噪方式得到。例如，第一加噪方式包括随机置换训练文本中词的顺序和随机替换训练文本中的词中的至少一种以及随机对训练文本中的词进行掩码处理。通过在训练文本中引入多种噪声，可以提高编码模块在文本编码过程中对噪声的检测、去除和还原能力，从而进一步提高文本编码准确性，进一步提高自然语言处理的准确性。

例如，训练文本所对应的词序列表示为{t₀,t₁,t₂,t₃,t₄,t₅,t₆,t₇}。该训练文本包括7个词t₀、t₁、t₂、t₃、t₄、t₅、t₆、t₇。对该训练文本采用的第一加噪方式包括训练文本的词t₁进行掩码处理，将词t₂、t₃、t₄的顺序置换为t₃、t₄、t₂，将词t₆替换为t_k。通过这些加噪操作，可以得到第一噪声文本的词序列表示{t₀,_,t₃,t₄,t₂,t₅,t_k,t₇}，其中，“_”表示掩码处理后的词。

下面将结合图3详细描述第一噪声文本{t₀,_,t₃,t₄,t₂,t₅,t_k,t₇}的编码和噪声分类过程。

图3是示出根据本公开一些实施例的模型训练方法的示意图。

如图3所示，机器学习模型31包括编码模块311和串联在编码模块311之后的解码模块312。在一些实施例中，机器学习模型31为自然语言处理模型。例如，自然语言处理模型包括Transformer模型。编码模块也可以称为编码层，解码模块也可以称为解码层。编码层可以包括一个或多个编码器(encoder)，解码层也可以包括一个或多个解码器(decoder)。

在训练过程中，第一噪声文本的词t₀、_、t₃、t₄、t₂、t₅、t_k、t₇被输入到编码模块311中，得到每个词的第一子编码向量(图3未示出)。编码模块311输出的每个词的第一子编码向量被输入到分类模型32中。分类模型32对每个词的第一子编码向量进行处理得到每个词的预测噪声类型。如图3所示，第一噪声文本的词t₀、_、t₃、t₄、t₂、t₅、t_k、t₇的预测噪声类型分别为0、1、2、2、2、0、3、0。0表示没有噪声，即正常单词。1表示掩码处理产生的噪声，即随机掩码噪声。2表示随机置换词的顺序产生的噪声，即随机置换噪声。3表示随机替换词产生的噪声，即随机替换噪声。采用不同的数字表示不同的噪声类型仅作为一种示例，可以采用其他方式表示预测噪声类型。

在一些实施例中，以第一噪声文本包括m个词、预测噪声类型包括c种、第一噪声文本存在n个为例，第一损失值基于交叉熵损失函数可以表示为

表示第一噪声文本的词t_j属于噪声类型k的预测概率，/>

表示第一噪声文本的词t_j属于噪声类型k的标注概率，θ_enc表示编码模块的模型参数。在噪声分类过程中，标注噪声类型和预测噪声类型均有对应的概率。在上述实施例中，/>

为去噪自监督信号。

返回图2，在步骤S152中，根据第一预测文本，确定第二损失值。第二损失值表征第一预测文本的准确性。第二损失值用于训练编码模块和解码模块的模型参数，即训练机器学习模型的全部模型参数。

在一些实施例中，可以根据第一噪声文本和第一预测文本，确定第二损失值。第二损失值表征基于第一噪声文本得到第一预测文本的概率。第二损失值反映对第一噪声文本进行文本还原的正确性概率。以第一噪声文本存在n个、第i个第一噪声文本表示为

第i个第一预测文本表示为x_i为例，第二损失值可以表示为/>

表示基于第一噪声文本得到第一预测文本的概率，θ_all表示编码模块和解码模块的模型参数，即机器学习模型的全部模型参数。

在步骤S153中，根据第一损失值和第二损失值，训练机器学习模型。

在一些实施例中，还可以通过如图4所示的方式实现上述步骤S150。

图4是示出根据本公开另一些实施例的训练机器学习模型的流程图。

如图4所示，训练机器学习模型包括步骤S151'-步骤S153'。

在步骤S151'中，对训练文本进行加噪，得到第二噪声文本。第一噪声文本采用第一加噪方式得到。第二噪声文本采用第二加噪方式得到。

在一些实施例中，第一加噪方式包括机置换训练文本中词的顺序、随机替换训练文本中的词以及随机对训练文本中的词进行掩码处理中的至少一种。第二加噪方式包括机置换训练文本中词的顺序、随机替换训练文本中的词以及随机对训练文本中的词进行掩码处理中的至少一种。第一加噪方式至少存在一部分不同于第二加噪方式。

在一些实施例中，第一加噪方式包括随机置换训练文本中词的顺序和随机替换训练文本中的词中的至少一种以及随机对训练文本中的词进行掩码处理。第二加噪方式包括随机对训练文本中的词进行掩码处理。

在一些实施例中，第一加噪方式包括随时置换训练文本中词的顺序和随机替换训练训练文本中的词中的至少一种。第二加噪方式包括随机对训练文本中的词进行掩码处理。上述实施例仅作为列举的一些实施例，根据本公开，第一加噪方式和第二加噪方式还可以是其他组合方式。

在步骤S152'中，根据第二噪声文本，利用编码模块，确定第二噪声文本的第二编码向量。在一些实施例中，也可以对第二噪声文本的第二编码向量进行类似于第一编码向量的噪声分类处理，并利用第二编码向量对应的预测噪声类型对编码模块的模型参数进行训练。

在步骤S153'中，根据预测噪声类型和第一预测文本、第一编码向量和第二编码向量，训练机器学习模型。第一编码向量和第二编码向量用于训练编码模块的模型参数。

在上述实施例中，在利用预测噪声类型训练编码模块的模型参数的基础上，通过对训练文本进行两种加噪方式的处理，并以不同加噪方式的噪声文本的编码向量进行对比学习训练，可以进一步提高机器学习模型还原噪声文本的能力，从而提高自然语言处理的准确性。

在一些实施例中，训练文本包括第一训练文本和第二训练文本。每个训练文本对应一个第一噪声文本和一个第二噪声文本。这里的第一训练文本和第二训练文本用于区分训练文本中包括不同的训练文本，不代表仅有这两个训练文本。

例如，可以通过如下的步骤1)-2)实现根据预测噪声类型和第一预测文本、第一编码向量和第二编码向量，训练机器学习模型。

在步骤1)中，根据训练文本的第一编码向量和第二编码向量，确定第三损失值。第三损失值表征第一训练文本的第一编码向量与第一训练文本的第二编码向量的相似度相对于第一训练文本的第二编码向量与第二训练文本的第一编码向量和第二编码向量中的至少一种的相似度之间的差异程度。

在一些实施例中，第三损失值表征同一训练文本的第一编码向量与第二编码向量的相似度相对于不同训练文本的第二编码向量之间的相似度和/或不同训练文本的第一编码向量与第二编码向量的相似度的差异程度。例如，第三损失值与该差异程度成负相关。

在一些实施例中，以训练文本存在多个为例，可以通过如下步骤确定第三损失值。

首先，对于每个训练文本，确定每个训练文本的第一编码向量和第二编码向量之间的相似度，作为第一相似度。

然后，确定每个训练文本的第二编码向量与除每个训练文本以外的其他训练文本的第一编码向量和第二编码向量中的至少一种之间的相似度，作为第二相似度。

最后，根据与每个训练文本对应的第一相似度和第二相似度，确定第三损失值。第三损失值与第一相似度成负相关且与第二相似度成正相关。在训练过程中，以第一相似度与第二相似度之间的差异程度大于预设阈值为目标。训练过程中，以第一相似度减少，第二相似度增加为目标。

在一些实施例中，第一相似度和第二相似度采用余弦距离表示。

下面将结合图5详细描述确定第三损失值的过程。

图5是示出根据本公开另一些实施例的模型训练方法的示意图。

图5以训练文本x₁、x₂和x₃为例。采用第一加噪方式，对训练文本x₁、x₂和x₃进行加噪得到第一噪声文本

和/>

采用第二加噪方式，对训练文本x₁、x₂和x₃进行加噪得到第二噪声文本/>

和/>

如图5所示，第一噪声文本

和/>

被输入到机器学习模型31的编码模块311中，经过编码模块311的处理，得到第一编码向量/>

和/>

第二噪声文本

和/>

也被输入到编码模块311中，经过编码模块311的处理，得到第二编码向量

和/>

图5示出了三个第一噪声文本和三个第二噪声文本，对应三个训练文本。实际处理过程中，也可以多于三个第一噪声文本和三个第二噪声文本。

以训练文本x₁为例，如图5所示，以实线的双箭头连接的第一编码向量

与第二编码向量/>

之间的相似度为第一相似度。以虚线的双箭头连接的第二编码向量/>

与第二编码向量/>

之间的相似度为第二相似度。以虚线的双箭头连接的第二编码向量/>

与第一编码向量/>

和/>

之间的相似度也为第二相似度。

以n个训练文本为例，结合图5，第三损失值可以表示为

τ为调节参数，也称为温度超参数。sim()表示余弦相似度。例如，/>

作为训练过程中的对比自监督信号。

在步骤2)中，根据预测噪声类型和第一预测文本、以及第三损失值，训练机器学习模型。

在上述实施例中，通过引入第三损失值，使得编码模块可以学习到在同一个文本表征空间中，通过对同一训练文本采用不同加噪方式得到的存在相似关系的正样本所对应的编码向量之间应该更接近，不同训练文本通过加噪得到的不存在相似关系的负样本所对应的编码向量之间应该更远离的特征，从而可以缓解文本表征的“塌缩”现象，提高编码模块的编码准确性，进而提高解码模块的文本还原准确性，提高自然语言处理的准确性。通过引入第三损失值，引入了对比自监督信号，实现了对比学习。

正样本为同一训练文本对应的第一噪声文本和第二噪声文本。负样本为不同训练文本对应的第一噪声文本和第二噪声文本，和/或不同训练文本对应的第二噪声文本。“塌缩”问题指的是在文本表征空间中，所有的文本表征(即编码向量)都聚集在一起，难以通过文本表征之间的距离判断不同文本之间的相似度关系。

在一些实施例中，还可以通过图6所示的方式实现上述步骤S150。

图6是示出根据本公开再一些实施例的训练机器学习模型的流程图。

如图6所示，训练机器学习模型包括步骤S151”-步骤S154”。

在步骤S151”中，对训练文本进行加噪，得到第二噪声文本。第一噪声文本采用第一加噪方式得到。第二噪声文本采用第二加噪方式得到。

在步骤S152”中，根据第二噪声文本，利用编码模块，确定第二噪声文本的第二编码向量。

在步骤S153”中，根据第二编码向量，利用解码模块，确定第二预测文本。仍以图5为例，机器学习模型31的解码模块312接收来自编码模块311输出的第一编码向量和第二编码向量，并对其进行处理，得到第一噪声文本的第一预测文本和第二噪声文本的第二预测文本。图5中第一预测文本和第二预测文本相同。在一些实施例中，第一预测文本和第二预测文本也可以不同。

在步骤S154”中，根据预测噪声类型、第一预测文本和第二预测文本，训练机器学习模型。第二预测文本用于训练编码模块和解码模块的模型参数。在训练过程中，同时引入预测噪声类型以及不同加噪方式的预测文本，可以进一步机器学习模型的提升噪声检测和还原能力，在进一步提升编码模块的文本编码准确性的基础上，进一步提升解码模块的文本还原能力，从而进一步提高自然语言处理的准确性。

在一些实施例中，可以根据第二预测文本，确定第四损失值，并根据预测噪声类型、第一预测文本和第四损失值，训练机器学习模型。第四损失值表征第二预测文本的准确性。

在一些实施例中，可以根据第二噪声文本和第二预测文本，确定第四损失值。第四损失值表征第二预测文本与第二噪声文本之间的相似度。以第二噪声文本存在n个、第i个第二噪声文本表示为

第i个第二预测文本表示为x_i为例，第二损失值可以表示为

表示基于第二噪声文本得到第二预测文本的概率，θ_all表示编码模块和解码模块的模型参数，即机器学习模型的全部模型参数。

在一些实施例中，还可以根据预测噪声类型、第一预测文本、第二预测文本、第一编码向量和第二编码向量，训练机器学习模型。第一编码向量和第二编码向量用于训练编码模块的模型参数。通过利用预测噪声类型、不同加噪方式下的预测文本、不同加噪方式下的编码向量共同训练机器学习模型，通过相互作用提升编码模块的文本编码能力、解码模块的文本还原能力等不同方面的自然语言处理准确性，从而综合提升自然语言处理的准确性。

在一些实施例中，以训练文本包括第一训练文本和第二训练文本且每个训练文本对应一个第一噪声文本为例，可以通过如下方式实现根据预测噪声类型、第一预测文本、第二预测文本、第一编码向量和第二编码向量，训练机器学习模型。

首先，根据预测噪声类型，确定第一损失值。第一损失值表征预测噪声类型的准确性。

其次，根据第一预测文本，确定第二损失值。第二损失值表征第一预测文本的准确性。

再次，根据多个训练文本的第一编码向量和第二编码向量，确定第三损失值。第三损失值表征第一训练文本的第一编码向量与第一训练文本的第二编码向量的相似度相对于第一训练文本的第二编码向量与第二训练文本的第一编码向量和第二编码向量中的至少一种的相似度之间的差异程度。

然后，根据第二预测文本，确定第四损失值。第四损失值表征第二预测文本的准确性。

最后，根据第一损失值、第二损失值、第三损失值和第四损失值，训练机器学习模型。在一些实施例中，以第一损失值为

第二损失值为/>

第三损失值为/>

第四损失值为/>

为例，可以为第一损失值和第三损失值分别配置权重2_de和2_cl，总损失值为

例如，2_de和2_cl分别配置为0.05和0.1。通过总损失值来训练机器学习模型。上述步骤的具体实现过程可以参考其他实施例，此处不再赘述。

图7是示出根据本公开一些实施例的自然语言处理方法的流程图。

如图7所示，自然语言处理方法包括步骤S710-步骤S720。

在步骤S710中，获取待处理文本。

在步骤S720中，根据待处理文本，利用机器学习模型，确定与待处理文本对应的预测文本。机器学习模型是利用本公开任意实施例中的模型训练方法得到。

机器学习模型包括编码模块以及连接在编码模块之后的解码模块。待处理文本作为编码模块的输入，经过编码模块的处理得到文本编码向量。文本编码向量作为解码模块的输入，经过解码模块的处理，得到预测文本。

图8是示出根据本公开一些实施例的模型训练装置的框图。

如图8所示，用于自然语言处理的模型训练装置8包括加噪模块81、第一确定模块82、第二确定模块83、第三确定模块84和训练模块85。

加噪模块81被配置为对训练文本进行加噪，得到第一噪声文本；

第一确定模块82被配置为根据第一噪声文本，利用机器学习模型的编码模块，确定第一噪声文本的第一编码向量，例如执行如图1所示的步骤S110。

第二确定模块83被配置为根据第一编码向量，利用分类模型，确定与第一噪声文本对应的预测噪声类型，例如执行如图1所示的步骤S120。

第三确定模块84被配置为根据第一编码向量，利用机器学习模型的解码模块，确定第一预测文本，例如执行如图1所示的步骤S130。

训练模块85被配置为根据预测噪声类型和第一预测文本，训练机器学习模型，例如执行如图1所示的步骤S150。预测噪声类型用于训练编码模块的模型参数，第一预测文本用于训练编码模块和解码模块的模型参数。

图9是示出根据本公开一些实施例的自然语言处理装置的框图。

如图9所示，自然语言处理装置9包括获取模块91和确定模块92。

获取模块91被配置为获取待处理文本，例如执行如图7所示的步骤S710。

确定模块92被配置为根据待处理文本，利用机器学习模型，确定与待处理文本对应的预测文本，例如执行如图7所示的步骤S720。机器学习模型是利用本公开任意一些实施例中的模型训练方法得到。

图10是示出根据本公开一些实施例的电子设备的框图。

如图10所示，电子设备10包括存储器101；以及耦接至该存储器101的处理器102。存储器101用于存储执行模型训练方法或自然语言处理方法对应实施例的指令。处理器102被配置为基于存储在存储器101中的指令，执行本公开中任意一些实施例中的模型训练方法或自然语言处理方法。

如图11所示，计算机系统110可以通用计算设备的形式表现。计算机系统110包括存储器1110、处理器1120和连接不同系统组件的总线1100。

存储器1110例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行模型训练方法或自然语言处理方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器1120可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线1100可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统110还可以包括输入输出接口1130、网络接口1140、存储接口1150等。这些接口1130、1140、1150以及存储器1110和处理器1120之间可以通过总线1100连接。输入输出接口1130可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口1140为各种联网设备提供连接接口。存储接口1150为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的用于自然语言处理的模型训练方法及装置、自然语言处理方法及装置、电子设备、计算机可存储介质，可以提高自然语言处理过程中的文本编码的准确性，从而提高自然语言处理的准确性。

至此，已经详细描述了根据本公开的用于自然语言处理的模型训练方法及装置、自然语言处理方法及装置、电子设备、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种用于自然语言处理的模型训练方法，包括：

对训练文本进行加噪，得到第一噪声文本；

根据所述第一噪声文本，利用机器学习模型的编码模块，确定所述第一噪声文本的第一编码向量；

根据所述第一编码向量，利用分类模型，确定与所述第一噪声文本对应的预测噪声类型；

根据所述第一编码向量，利用所述机器学习模型的解码模块，确定第一预测文本；

根据所述预测噪声类型和所述第一预测文本，训练所述机器学习模型，其中，所述预测噪声类型用于训练所述编码模块的模型参数，所述第一预测文本用于训练所述编码模块和所述解码模块的模型参数。

2.根据权利要求1所述的模型训练方法，其中，训练所述机器学习模型包括：

根据所述预测噪声类型，确定第一损失值，其中，所述第一损失值表征所述预测噪声类型的准确性；

根据所述第一预测文本，确定第二损失值，其中，所述第二损失值表征所述第一预测文本的准确性；

根据所述第一损失值和所述第二损失值，训练所述机器学习模型。

3.根据权利要求2所述的模型训练方法，其中，根据所述预测噪声类型，确定第一损失值包括：

获取与所述第一噪声文本对应的标注噪声类型；

根据所述标注噪声类型和所述预测噪声类型，确定所述第一损失值，其中，所述第一损失值表征所述预测噪声类型与所述标注噪声类型之间的相似度。

4.根据权利要求3所述的模型训练方法，其中，根据所述标注噪声类型和所述预测噪声类型，确定所述第一损失值包括：

根据所述标注噪声类型和所述预测噪声类型，利用交叉熵损失函数，确定所述第一损失值。

5.根据权利要求3或4所述的模型训练方法，其中，所述第一噪声文本包括多个词，所述第一编码向量包括所述第一噪声文本中每个词的第一子编码向量，所述预测噪声类型包括所述第一噪声文本中每个词的预测噪声类型，所述标注噪声类型包括所述第一噪声文本中的每个词的标注噪声类型。

6.根据权利要求2所述的模型训练方法，其中，根据所述第一预测文本，确定第二损失值包括：

根据所述第一噪声文本和所述第一预测文本，确定所述第二损失值，其中，所述第二损失值表征基于所述第一噪声文本得到所述第一预测文本的概率。

7.根据权利要求1所述的模型训练方法，其中，训练所述机器学习模型包括：

对所述训练文本进行加噪，得到第二噪声文本，其中，所述第一噪声文本采用第一加噪方式得到，所述第二噪声文本采用第二加噪方式得到；

根据所述第二噪声文本，利用所述编码模块，确定所述第二噪声文本的第二编码向量；

根据所述预测噪声类型和所述第一预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型，其中，所述第一编码向量和所述第二编码向量用于训练所述编码模块的模型参数。

8.根据权利要求7所述的模型训练方法，其中，所述训练文本包括第一训练文本和第二训练文本，每个训练文本对应一个第一噪声文本和一个第二噪声文本，根据所述预测噪声类型和所述第一预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型包括：

根据所述训练文本的第一编码向量和第二编码向量，确定第三损失值，其中，所述第三损失值表征所述第一训练文本的第一编码向量与所述第一训练文本的第二编码向量的相似度相对于所述第一训练文本的第二编码向量与所述第二训练文本的第一编码向量和第二编码向量中的至少一种的相似度之间的差异程度；

根据所述预测噪声类型和所述第一预测文本、以及所述第三损失值，训练所述机器学习模型。

9.根据权利要求8所述的模型训练方法，其中，所述训练文本存在多个，根据所述训练文本的第一编码向量和第二编码向量，确定第三损失值包括：

对于每个训练文本，确定所述每个训练文本的第一编码向量和第二编码向量之间的相似度，作为所述第一相似度；

确定所述每个训练文本的第二编码向量与除所述每个训练文本以外的其他训练文本的第一编码向量和第二编码向量中的至少一种之间的相似度，作为第二相似度；

根据与每个训练文本对应的第一相似度和第二相似度，确定所述第三损失值，其中，所述第三损失值与第一相似度成负相关且与第二相似度成正相关。

10.根据权利要求7所述的模型训练方法，其中，所述第一加噪方式包括随机置换所述训练文本中词的顺序和随机替换所述训练文本中的词中的至少一种以及随机对所述训练文本中的词进行掩码处理；所述第二加噪方式包括随机对所述训练文本中的词进行掩码处理。

11.根据权利要求1所述的模型训练方法，其中，训练所述机器学习模型包括：

根据所述第二编码向量，利用所述解码模块，确定第二预测文本；

根据所述预测噪声类型、所述第一预测文本和所述第二预测文本，训练所述机器学习模型，其中，所述第二预测文本用于训练所述编码模块和所述解码模块的模型参数。

12.根据权利要求11所述的模型训练方法，其中，根据所述预测噪声类型、所述第一预测文本和所述第二预测文本，训练所述机器学习模型包括：

根据所述第二预测文本，确定第四损失值，其中，所述第四损失值表征所述第二预测文本的准确性；

根据所述预测噪声类型、所述第一预测文本和所述第四损失值，训练所述机器学习模型。

13.根据权利要求11所述的模型训练方法，其中，根据所述预测噪声类型、所述第一预测文本和所述第二预测文本，训练所述机器学习模型包括：

根据所述预测噪声类型、所述第一预测文本、所述第二预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型，其中，所述第一编码向量和所述第二编码向量用于训练所述编码模块的模型参数。

14.根据权利要求13所述的模型训练方法，其中，所述训练文本包括第一训练文本和第二训练文本，每个训练文本对应一个第一噪声文本，根据所述预测噪声类型、所述第一预测文本、所述第二预测文本、所述第一编码向量和所述第二编码向量，训练所述机器学习模型包括：

根据多个训练文本的第一编码向量和第二编码向量，确定第三损失值，其中，所述第三损失值表征所述第一训练文本的第一编码向量与所述第一训练文本的第二编码向量的相似度相对于所述第一训练文本的第二编码向量与所述第二训练文本的第一编码向量和第二编码向量中的至少一种的相似度之间的差异程度；

根据所述第一损失值、所述第二损失值、所述第三损失值和所述第四损失值，训练所述机器学习模型。

15.根据权利要求12或14所述的模型训练方法，其中，根据所述第二预测文本，确定第四损失值包括：

根据所述第二噪声文本和所述第二预测文本，确定所述第四损失值，其中，所述第四损失值表征所述第二预测文本与所述第二噪声文本之间的相似度。

16.一种自然语言处理方法，包括：

获取待处理文本；

根据所述待处理文本，利用机器学习模型，确定与所述待处理文本对应的预测文本，其中，所述机器学习模型是利用如权利要求1至15任一项所述的模型训练方法得到。

17.一种用于自然语言处理的模型训练装置，包括：

加噪模块，被配置为对训练文本进行加噪，得到第一噪声文本；

第一确定模块，被配置为根据所述第一噪声文本，利用机器学习模型的编码模块，确定所述第一噪声文本的第一编码向量；

第二确定模块，被配置为根据所述第一编码向量，利用分类模型，确定与所述第一噪声文本对应的预测噪声类型；

第三确定模块，被配置为根据所述第一编码向量，利用所述机器学习模型的解码模块，确定第一预测文本；

训练模块，被配置为根据所述预测噪声类型和所述第一预测文本，训练所述机器学习模型，其中，所述预测噪声类型用于训练所述编码模块的模型参数，所述第一预测文本用于训练所述编码模块和所述解码模块的模型参数。

18.一种自然语言处理装置，包括：

获取模块，被配置为获取待处理文本；

确定模块，被配置为根据所述待处理文本，利用机器学习模型，确定与所述待处理文本对应的预测文本，其中，所述机器学习模型是利用如权利要求1至15任一项所述的模型训练方法得到。

19.一种电子设备，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至15任一项所述的模型训练方法或者如权利要求16所述的自然语言处理方法。

20.一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至15任一项所述的模型训练方法或者如权利要求16所述的自然语言处理方法。