CN114925660B

CN114925660B - 文本处理模型训练方法及装置、文本处理方法及装置

Info

Publication number: CN114925660B
Application number: CN202210565333.3A
Authority: CN
Inventors: 吕乐宾; 蒋宁; 王洪斌; 肖冰; 李宽
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2023-07-28
Anticipated expiration: 2042-05-23
Also published as: CN114925660A

Abstract

本说明书实施例提供了文本处理模型训练方法及装置、文本处理方法及装置，其中，一种文本处理模型训练方法包括：获取第一文本和第二文本；将第一文本和第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；模型训练时：第一编码器对第一文本与第二文本进行编码处理，得到文本语义向量；解码器基于文本语义向量对第一文本进行词组预测，得到预测词组；衰减模块基于文本语义向量进行向量衰减，得到衰减向量；第二编码器基于衰减向量对第一文本和第二文本进行类别异同检测，得到类别检测结果；根据预测词组、类别检测结果计算损失值并进行参数更新。采用本申请实施例可提升文本处理模型的处理准确率。

Description

文本处理模型训练方法及装置、文本处理方法及装置

技术领域

本申请涉及文本处理技术领域，尤其涉及一种文本处理模型训练方法及装置、文本处理方法及装置。

背景技术

随着人工智能技术的快速发展，神经网络模型也随之孕育而生，其中，通过基于大量历史样本数据对神经网络模型中的模型参数进行迭代训练，能够使得神经网络模型从大量历史样本数据中学习规律，从而对新的样本做智能识别或对未来做预测，但针对某些特定的应用场景，获取大量的有标签样本数据的难度比较大。

发明内容

本申请实施例提供了一种文本处理模型训练方法及装置，以提升文本处理模型的处理准确率。

第一方面，本申请实施例提供了一种文本处理模型训练方法，包括：

获取第一文本和第二文本，所述第二文本为所述第一文本的正例样本或者负例样本；

将所述第一文本和所述第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；

其中，所述待训练模型包括第一编码器、第二编码器、解码器和衰减模块；每次模型训练的具体实现方式有：

所述第一编码器对所述第一文本与所述第二文本进行编码处理，得到文本语义向量；所述解码器基于所述文本语义向量对所述第一文本进行词组预测，得到预测词组；所述衰减模块基于所述文本语义向量进行向量衰减，得到衰减向量；所述第二编码器基于所述衰减向量对所述第一文本和所述第二文本进行类别异同检测，得到类别检测结果；

根据所述预测词组、所述类别检测结果、实际词组以及实际类别异同结果，计算所述待训练模型的损失值；

基于所述损失值对所述第二编码器、所述解码器、所述衰减模块和所述第一编码器进行参数更新。

可以看出，在本申请实施例中，训练包括第一编码器、第二编码器、解码器和衰减模块的文本处理模型，在获取到第一文本和第一文本的正例样本或者负例样本的第二文本之后，将第一文本和第二文本输入待训练模型进行模型训练，得到文本处理模型，在进行模型训练的过程中，首先利用第一编码器对将第一文本与第二文本进行编码处理，得到文本语义向量；然后一方面，通过解码器对第一文本进行词组预测，另一方面，通过第二编码器对第一文本和第二文本进行类别异同检测，且在通过第二编码器对第一文本和第二文本进行类别异同检测之前，通过衰减模块对文本语义向量进行向量衰减；在此基础上，基于实际词组、实际类别异同结果、解码器得到的预测词组，以及第二编码器得到的类别检测结果计算待训练模型的损失值，再基于损失值对第二编码器、解码器、衰减模块和第一编码器进行参数更新，得到训练后的文本处理模型；

以此，一方面，通过衰减模块进行向量衰减，使第二编码器基于衰减向量进行类别异同检测，使解码器和第二编码器的拟合过程同步；第二方面，通过训练包含解码器和第二编码器的文本处理模型，同时实现词组预测和文本类别检测，提升文本处理效率；第三方面，基于第一文本和第二文本对解码器和第二编码器进行训练，使训练获得的文本处理模型在保证整体特征抽象能力的同时，具备对文本的细节和语义特征进行判断的能力，提升文本处理模型的处理准确率。

第二方面，本申请实施例提供了一种文本处理方法，包括：

将第一待处理文本和第二待处理文本输入文本处理模型进行文本处理，得到目标词组和类别检测结果；

其中，所述文本处理模型包括第一编码器、第二编码器、解码器和衰减模块；所述第一编码器用于对所述第一待处理文本和所述第二待处理文本进行编码处理得到文本语义向量，所述解码器用于基于所述文本语义向量对所述第一待处理文本进行词组预测，得到所述目标词组；所述衰减模块用于基于所述文本语义向量进行向量衰减得到衰减向量；所述第二编码器用于基于所述衰减向量对所述第一待处理文本与所述第二待处理文本进行类别异同检测，得到所述类别检测结果。

可以看出，在本申请实施例中，基于包括第一编码器、第二编码器、解码器和衰减模块的文本处理模型对第一待处理文本和第二待处理文本进行文本处理，同时实现利用文本处理模型对第一待处理文本和第二待处理文本进行词组预测和类别异同检测，提升对于第一待处理文本和第二待处理文本进行文本处理的全面性和效率；此外，在进行类别异同检测的过程中，首先利用衰减模块将第一待处理文本和第二待处理文本进行向量衰减得到衰减向量，再利用第二编码器基于衰减向量进行类别异同检测，以实现类别异同检测和词组预测的同步处理，使文本处理模型同时得到目标词组和类别检测结果，提升对文本处理模型进行文本处理的感知程度。

第三方面，本申请实施例提供了一种文本处理模型训练装置，包括：

文本获取模块，用于获取第一文本和第二文本，所述第二文本为所述第一文本的正例样本或者负例样本；

模型训练模块，用于将所述第一文本和所述第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；

第四方面，本申请实施例提供了一种文本处理装置，包括：

文本处理模块，用于将第一待处理文本和第二待处理文本输入文本处理模型进行文本处理，得到目标词组和类别检测结果；

第五方面，本申请实施例提供了一种文本处理模型训练设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行第一方面所述的文本处理模型训练方法。

第六方面，本申请实施例提供了一种文本处理设备，包括：处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行第二方面所述的文本处理方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如第一方面所述的文本处理模型训练方法。

第八方面，本申请实施例提供了一种计算机可读存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如第二方面所述的文本处理方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图；

图1为本申请实施例提供的一种文本处理模型训练方法处理流程图；

图2为本申请实施例提供的一种文本处理模型训练处理过程的示意图；

图3为本申请实施例提供的一种模型训练过程的处理流程图；

图4为本申请实施例提供的一种应用于文本场景的文本处理模型训练方法处理流程图；

图5为本申请实施例提供的一种应用于文本场景的模型训练过程的处理流程图；

图6为本申请实施例提供的一种文本处理方法处理流程图；

图7为本申请实施例提供的一种文本处理过程的示意图；

图8为本申请实施例提供的一种文本处理模型训练装置示意图；

图9为本申请实施例提供的一种文本处理模型训练设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请的保护范围。

实际应用中，在对文本进行词组预测的过程中，在自编码器中对数据样本编码成特征再解码重构，这种方式需要对数据细节和语义有深入的理解，且因为文本的标签只来源于原文本，使得标签过于单一；在对文本进行类别异常检测的过程中，利用对比学习，通过将文本分别与正例样本和负例样本在特征空间进行对比，来学习样本的特征标识，但是对比学习关注的是文本的整体抽样特征，对细节特征会有所丢失。

针对于此，为了在保证模型的整体特征抽象的能力的基础上，提升模型更深度的语义理解能力，本实施例提供的文本处理模型训练方法，将生成式自监督学习与对比式自监督学习进行结合，即训练包含第二编码器和解码器的模型，使模型在保证整体特征抽象能力的同时，具备对文本的细节和语义特征进行判断的能力；

具体的，对待训练模型进行模型训练的过程中，获取到第一文本和第二文本之后，利用待训练模型中的第一编码器对第一文本和第二文本进行编码处理，得到文本语义向量，再通过解码器对第一文本进行词组预测，以及，通过第二编码器对第一文本和第二文本进行类别异同检测，由于解码器对第一文本进行词组预测的拟合过程难于第二编码对第一文本和第二本进行类别异同检测的拟合过程，为了使第二编码器和解码器的拟合过程同步，在将文本语义向量输入第二编码器进行类别异同检测之前，将文本语义向量输入衰减模块，由衰减模块对文本语义向量进行向量衰减，再将衰减模块得到的衰减向量输入第二编码器进行类别异同检测；

在获取到解码器得到的预测词组和实际词组，以及第二编码器得到的类别检测结果和实际类别异同结果之后，根据预测词组和实际词组，以及类别检测结果和实际类别异同结果计算待训练模型的损失率，再基于损失率对第二编码器、解码器、衰减模块和第一编码器进行参数更新，得到训练后的文本处理模型，以此，通过在文本处理模型中分布第二编码器和解码器，实现词组预测的同时实现类别异同检测。

参照图1，本实施例提供的文本处理模型训练方法，具体包括步骤S102至步骤S104。

步骤S102，获取第一文本和第二文本。

所述第一文本，为对样本集中的样本经过随机词组处理获得的文本样本。所述随机词组处理，包括随机确定预设文本中的词组进行掩盖获得新的文本。例如：预设文本为“重庆老火锅是川渝地区传统美食之一”，在经过随机词组处理后，获得的第一文本为：“重庆□□是川渝地区□□之一”；其中，□□表示被掩盖的词；需要说明的是，为了避免将预设文本中大量词组进行掩盖影响模型训练效果，因此，被掩盖的词组数量不能超过预设文本包含的词组数量的数量阈值；例如，被掩盖的词组数量不能超过预设文本包含的词组数量的三分之一；所述词组，包括由至少一个文字组成的词组。所述第二文本为所述第一文本的正例样本或者负例样本；

具体实施时，为了保证训练得到的文本处理模型的性能，在对待训练模型进行训练的过程中，利用样本集中的文本样本进行训练，由于要使训练获得的文本处理模型具有词组预测和类别异同检测两个能力，因此，在进行训练的时候需要利用经过随机词组处理的样本和与第一文本具有类别关系的样本共同训练。所述待训练模型包括第一编码器、第二编码器、解码器和衰减模块。可选的，所述待训练模型的输入作为所述第一编码器的输入；所述第一编码器的输出作为所述衰减模块和所述解码器的输入；所述衰减模块的输出作为所述第二编码器的输入。其中，所述第一编码器和所述第二编码器包括Transformer架构下的编码器，解码器包括Transformer架构下的解码器；所述衰减模块，包括对文本语义向量进行向量衰减，使文本语义向量数据缺失的衰减层。

基于此，在对待训练模型的训练的过程中，首先获取第一文本和第二文本。其中，第二文本为第一文本的正例样本或者负例样本；

本实施例提供的第一种可选实施方式中，若第二文本为第一文本的正例样本，采用如下方式获取第一文本和第二文本：

确定对预设文本中需要进行词组处理的待处理词组，对所述待处理词组进行词组掩盖处理，获得所述第一文本；

对所述预设文本进行数据增强，获得所述第二文本。

具体的，预设文本为样本集中任一文本，对于预设文本，首先按照预设文本包含的词组数量，确定对预设文本进行词组处理的待处理词组，其中，待处理词组的数量小于或者等于所述词组数量的数量阈值(三分之一)，然后将待处理词组进行掩盖处理，获得预设文本的第一文本；同时，对预设文本进行数据增强，获得第二文本。所述数据增强，包括同义词替换、随机词删除、回译等方式。数据增强的具体方式，可通过数据增强算法来实现，本实施例在此不做限定；

例如，预设文本为“重庆老火锅是川渝地区传统美食之一”，在经过随机词组处理后，获得的第一文本为：“重庆□□是川渝地区□□之一”，对预设文本进行数据增强，获得第二文本为“重庆老火锅是四川和重庆经典美食的一种”。其中，第二文本是第一文本的正例样本。

本实施例提供的第二种可选实施方式中，若第二文本为第一文本的负例样本，所述第一文本和第二文本，采用如下方式获得：

在所述样本集中确定所述目标文本外的任一文本作为所述第二文本；

其中，所述目标文本为所述样本集中任意一个文本样本。

具体的，由于样本集中的各样本的文本类别不同，因此，在对目标文本进行随机词组处理获得第一文本后或者进行随机词组处理的同时，在样本集中随机选择目标文本之外的样本作为目标文本的第二文本。

例如，目标文本为“重庆老火锅是川渝地区传统美食之一”，在经过随机词组处理后，获得的第一文本为：“重庆□□是川渝地区□□之一”，在样本集中随机选择一个目标文本之外的文本“重庆是有名的山城”为第二文本，将第一文本“重庆□□是川渝地区□□之一”和第二文本“重庆是有名的山城”输入待训练模型。其中，第二文本为第一文本的负例样本。

容易理解的是，上述通过对预设文本进行数据增强获得的第二文本，为对预设文本进行随机词组处理获得的第一文本的正例样本；在样本集中选择的预设文本之外的任一文本作为的第二文本，为对预设文本进行随机词组处理获得的第一文本的负例样本。

步骤S104，将所述第一文本和所述第二文本输入待训练模型进行模型迭代训练，得到文本处理模型。

其中，所述待训练模型包括第一编码器、第二编码器、解码器和衰减模块；

所述第一编码器，包括第一文本和第二文本进行语义编码处理，将第一文本和第二文本编码成进行词组预测的解码器和进行类别异同检测的第二编码器能够识别的文本语义向量的编码器。所述文本语义向量，包括从第一文本和第二文本出发，第一文本和第二文本由文本形式编码成的第二编码器和解码器能够快速识别的向量形式；即用向量形式表示的第一文本和第二文本。所述第二编码器，包括对第一文本和第二文本进行类别异同检测的编码器；所述解码器，包括对第一文本进行词组预测的编码器；所述衰减模块，包括对文本语义向量进行衰减处理，造成文本语义向量中部分向量缺失的模块。所述解码器和所述第二编码器包括通过自监督学习进行训练的解码器和编码器。

本实施例中，优选地第一编码器和第二编码器为Transformer架构下的编码器，解码器为Transformer架构下的解码器；以第二编码器为例进行说明，第二编码器分别包括两个子层，一个是multi-head attention(注意力机制学习)层，是利用self-attention(自注意力机制)学习源句内部的关系。另一个是feed forward(正反馈)层，简单的全连接网络，对每个字符的向量分别进行相同的操作，包括两个线性变换和一个ReLU(RectifiedLinear Unit，线性整流函数)激活函数，之后产生第二编码器的输出；

解码器中有三个子层，其中两个multi-head attention层。下面的attention层是利用self-attention学习目标句内部的关系，之后该层输出与第一编码器传过来的结果一起输入到上面的attention(注意力)层，这个attention层并不是self-attention，而是encoder-decoder attention(编码-解码注意力机制)，用来学习源句(第二文本)与目标句(第一文本)之间的关系。

下述结合所述第一编码器、第二编码器、解码器和衰减模块对模型训练的具体方式进行说明，本实施例中，参照图3，所述模型训练的具体方式包括下述步骤S104-2至步骤S104-6。

步骤S104-2，所述第一编码器对所述第一文本与所述第二文本进行编码处理，得到文本语义向量；所述解码器基于所述文本语义向量对所述第一文本进行词组预测，得到预测词组；所述衰减模块基于所述文本语义向量进行向量衰减，得到衰减向量；所述第二编码器基于所述衰减向量对所述第一文本和所述第二文本进行类别异同检测，得到类别检测结果。

具体实施时，待训练模型在获取到输入待训练模型的第一文本和第二文本后，为了提升第二编码器和解码器对第一文本和第二文本的处理效率，首先通过第一编码器对第一文本和第二文本进行编码处理，得到能被第二编码器和解码器快速识别的文本语义向量。

需要说明的是，将第一文本和第二文本输入第一编码器进行编码处理的过程，是将第一文本和第二文本同时输入，具体的，为了对第一文本和第二文本进行区分，在第一文本和第二文本之间通过特殊字符(例如，空格)连接；对于经过随机词组处理后的待处理词组，也可通过特定字符进行展示，以提升第一编码器进行编码处理的效率。

以第二文本为第一文本的正例样本为例进行说明，将第一文本“重庆□□是川渝地区□□之一”和第二文本“重庆老火锅是四川和重庆经典美食的一种”以“重庆□□是川渝地区□□之一重庆老火锅是四川和重庆经典美食的一种”的形式进行编码处理，其中，重庆□□是川渝地区□□之一和重庆老火锅是四川和重庆经典美食的一种之间有一个空格。

进一步，由于第一编码器无法直接识别文字或者识别文字效率较低，因此，在将第一文本和第二文本输入第一编码器进行编码处理之前，还包括，将第一文本和第二文本转换为第一数字数据和第二数字数据，再将第一数字数据和第二数字数据输入第一编码器进行编码处理；

还需要说明的是，样本集中各文本的文本长度不一定一致，因此，为了保证第一编码器对第一文本和第二文本进行编码处理后获得的文本语义向量的有效性，对第一编码器设定编码数量，即第一编码器的可编码字符数量；

若第一文本和第二文本以及第一文本和第二文本的连接符对应的字符数量小于第一编码器的可编码字符数量，则利用预先设置的目标字符进行填充，将第一文本、连接符和第二文本组成的输入的字符数量填充至可编码字符数量，再将填充后的字符输入第一编码器；例如，上述重庆□□是川渝地区□□之一重庆老火锅是四川和重庆经典美食的一种转换为数字为xx1xxxxx1xx0xxxxxxxxxxxxxxxxxx，其中，1为□□的指定数字标识，0为空格对应的指定数字标识，x为各字符对应的数字标识。上述具有30个字符，但是第一编码器的可编码字符数量为40，则将xx1xxxxx1xx0xxxxxxxxxxxxxxxxxx填充为xx1xxxxx1xx0xxxxxxxxxxxxxxxxxx0000000000。

若第一文本和第二文本以及第一文本和第二文本的连接符对应的字符数量等于第一编码器的可编码字符数量，则将第一文本、连接度和第二文本输入第一编码器；

第一文本和第二文本以及第一文本和第二文本的连接符对应的字符数量大于第一编码器的可编码字符数量，则将超出可编码字符数量的字符删除，再将删除后的字符输入第一编码器。例如，上述重庆□□是川渝地区□□之一重庆老火锅是四川和重庆经典美食的一种转换为数字为xx1xxxxx1xx0xxxxxxxxxxxxxxxxxx，但第一编码器的可编码字符数量为25，因此，则自动删除超出25的字符，变为xx1xxxxx1xx0xxxxxxxxxxxxx。

此外，上述对于数字转换和字符数量的处理，可提前将第一文本、连接符和第二文本组成的文本(待编码文本)的字符数量进行处理，获得第一编码器的可编码字符数量对应的待编码文本，再将待编码文本输入第一编码器，也可将待编码文本输入第一编码器，第一编码器进行字符数量处理(填充或者删减)，本实施例在此不做限定。

针对第二文本为第一文本的正例样本的情况，可以对预设文本进行随机词组处理获得第一文本，以及对预设文本进行数据增强获得第二文本后，将第一文本和第二文本输入待训练模型进行模型训练；还可在待训练模型配置随机词组处理算法、数据增强算法；具体的，获取输入待训练模型的第一文本和第二文本可以被替换为，获取输入待训练模型的样本集中的文本；针对样本集中的任一文本(预设文本)，执行如下操作：将所述预设文本输入随机词组处理算法进行随机词组处理，获得所述预设文本的第一文本，以及，将所述预设文本输入数据增强算法进行数据增强处理，获得所述预设文本的第二文本；

针对第二文本为第一文本的负例样本的情况，与上述针对第二文本为第一文本的正例样本的情况类似，即可以对目标文本(预设文本)进行随机词组处理获得第一文本，并在样本集中随机选择目标文本之外的任一文本作为第二文本，将第一文本和第二文本输入待训练模型进行模型训练，此外，还可将样本集输入待训练模型，待训练模型在进行模型训练的时候，针对样本集中的目标文本，进行随机词组处理获得第一文本，并在样本集中随机选择目标文本之外的任一文本作为第二文本。

所述词组预测，包括随机词组预测；所述向量衰减，包括对文本语义向量进行数据减半或者，文本语义向量进行随机数据丢弃，此外，还可包含其他对文本语义向量的衰减处理，使文本语义向量中的数据缺失，本实施例在此不做限定；所述类别异同检测，包括通过识别第一文本和第二文本的文本标签进而检测第一文本和第二文本是否属于同类文本的过程。

具体实施时，将文本语义向量输入解码器进行词组预测，以及将文本语义向量输入第二编码器进行类别异同检测的过程是同时实现的，由于解码器进行词组预测的过程中的拟合难度大于第二编码器进行类别异同检测的拟合难度，因此，为了提升对解码器和第二编码器的输出的感知程度，使解码器和第二编码器同时输出，本实施例中，在利用第二编码器对第一文本和第二文本进行类别异同检测之前，将文本语义向量输入衰减模块进行向量衰减，将衰减模块输出的衰减向量输入第二编码器进行类别异同检测。

由于Transformer架构为自监督学习，因此，在对第二编码器和解码器进行训练的过程中，第二编码器输出类别检测结果，同时还会输出第一文本与第二文本的实际类别异同结构；解码器输出预测词组，同时还会输出实际词组，也即是待处理词组；

本实施例中，解码器可以学习第一文本和第二文本的关系，因此，若学习到第二文本为第一文本的正例文本，解码器基于第二文本对第一文本中掩盖的待处理词组进行预测的过程可以参考第二文本，通过对第二文本的引入，可以使解码器更加便捷更加有效地进行词组预测，提升了解码器也即是待训练模型的泛化能力。

若第二文本为第一文本的负例样本，则解码器还需要通过第一文本的自身语义进行词组预测，这就训练了待训练模型的抗干扰能力，增强了待训练模型中第二编码器对类别异同检测的有效性，即增强了待训练模型的整体特征抽象的能力，且在抗干扰的同时，解码器需要依据第一文本的语义进行词组预测，加强了模型更深度的语义理解能力。

因此，利用互为正例样本或者互为负例样本的第一文本和第二文本训练包含解码器和第二编码器的待训练模型，提升了训练获得的文本处理模型对于词组预测和类别异同检测的有效性，也提升了文本处理模型的泛化能力。

具体实施时，将第一文本和第二文本输入第一编码器进行编码处理，得到文本语义向量后，将文本语义向量输入解码器对第一文本进行词组预测，得到预测词组和实际词组，以及，将文本语义向量输入衰减模块进行向量衰减，并将衰减模块进行向量衰减得到的衰减向量输入第二编码器对第一文本和第二文本记性向量衰减，得到类别检测结果和第一文本与第二文本的实际类别异同结果；在进行模型训练的过程中，第一编码器对第一文本与第二文本进行编码处理，得到文本语义向量；解码器基于文本语义向量对第一文本进行词组预测，得到预测词组；衰减模块基于文本语义向量进行向量衰减，得到衰减向量；第二编码器基于衰减向量对第一文本和第二文本进行类别异同检测，得到类别检测结果。

其中，由于衰减模块是为了使解码器和第二编码器的拟合过程同步才配置的，因此，上述所述第一编码器对所述第一文本与所述第二文本进行编码处理，得到文本语义向量；所述解码器基于所述文本语义向量对所述第一文本进行词组预测，得到预测词组；所述衰减模块基于所述文本语义向量进行向量衰减，得到衰减向量；所述第二编码器基于所述衰减向量对所述第一文本和所述第二文本进行类别异同检测，得到类别检测结果；还可被替换为，所述第一编码器对所述第一文本与所述第二文本进行编码处理，得到文本语义向量；所述解码器基于所述文本语义向量对所述第一文本进行词组预测，得到预测词组；所述第二编码器基于所述衰减向量对所述第一文本和所述第二文本进行类别异同检测，得到类别检测结果；对应的，所述待训练模型包括第一编码器、解码器和第二编码器。

步骤S104-4，根据所述预测词组、所述类别检测结果、实际词组以及实际类别异同结果，计算所述待训练模型的损失值。

具体实施时，在获得预测词组和类别检测结果以后，基于预测词组、类别检测结果、实际词组以及实际类别异同结果，计算待训练模型的损失值并基于损失值对待训练模型进行参数更新。

本实施例提供的一种可选实施方式中，采用如下方式计算所述损失值：

根据所述预测词组和所述实际词组计算第一损失系数，以及，根据所述类别检测结果和所述实际类别异同结果计算第二损失系数；

基于所述第一损失系数和对应的权重，以及所述第二损失系数和对应的权重，计算所述第一损失系数和所述第二损失系数的加权和，作为所述损失值。

具体的，基于预测词组和实际词组计算获得的第一损失系数，和类别检测结果和实际类别异同结果计算获得的第二损失系数计算所述待训练模型的损失值。

例如，首先计算预测词组和实际词组的误差(预测词组减去实际词组的差的平方除以2)x1，将计算得到的误差作为第一损失系数，同时，计算类别检测结果和实际类别异同结果的误差(类别检测结果和实际类别异同结果的差的平方除以2)x2，将计算得到的误差作为第二损失系数；即若预测词组用out1-1表示，实际词组用out1-2表示，类别检测结果用out2-1表示，实际类别异同结果用out2-2标识，则：

x1＝(out1-1－out1-2)²÷2；x2＝(out2-1－out2-2)²÷2；

进一步，待训练模型的损失值为x＝(x1+x2)÷2。其中，x1的权重为1/2，x2的权重为1/2。

在进行损失值计算的过程中，由于存在解码器和第二编码器，因此，分别计算解码器的损失值(第一损失系数)和第二编码器的损失值(第二损失系数)，再计算待训练模型的损失值。

需要说明的是，上述针对权重值的计算仅仅是示例性的，还可通过其他方式计算权重值，具体根据实际需求进行配置，本实施例在此不做限定。

上述根据所述预测词组、所述类别检测结果、实际词组以及实际类别异同结果，计算所述待训练模型的损失值可被替换为根据所述预测词组，所述类别检测结果计算所述待训练模型的损失值。

步骤S104-6，基于所述损失值对所述第二编码器、所述解码器、所述衰减模块和所述第一编码器进行参数更新。

具体实施时，在计算获得待训练模型的损失值之后，基于损失值对待训练模型进行参数更新，具体的，基于损失值对待训练模型中的第二编码器、解码器、衰减模块和第一编码器进行参数更新，得到文本处理模型。

需要说明的是，若待训练模型中不包含衰减模块，则无需对衰减模块进行更新。

本实施例提供的一种可选实施方式中，采用如下方式进行参数更新：

基于所述损失值，对所述第二编码器、所述解码器和所述衰减模块进行参数更新；

根据所述损失值，以及对所述第二编码器、所述解码器和所述衰减模块的更新结果，对所述第一编码器进行参数更新，得到所述文本处理模型。

具体的，利用神经网络的反向传播，从输出的前一层开始进行参数更新，并依次对每一层进行参数更新，直至对输入的第一层进行参数更新。

在对每一层进行参数更新获得训练后的文本处理模型之后，需要核验文本处理模型是否符合要求，即是否达到预期效果，也即是损失值和前一轮模型训练的待训练模型的损失值的变化趋于平缓。

本实施例中，在获得文本处理模型后，还需要执行如下操作：

计算所述损失值与上一轮进行模型训练的第一文本处理模型的损失值的差值；

若所述差值处于预设差值范围，则将所述文本处理模型确定为目标文本处理模型，以基于所述目标文本处理模型进行文本处理；所述目标文本处理模型为确定的最终进行文本处理的文本处理模型；

若所述差值未处于所述预设差值范围，则将所述文本处理模型确定为下一轮模型训练所使用的待训练模型。

具体的，首先计算待训练模型的损失值与上一轮进行模型训练的第一文本处理模型的损失值的差值，若差值处于预设差值范围(例如[-0.1，0.1])，则确定模型训练结束，将文本处理模型作为目标文本处理模型，后续需要进行文本处理时，将需要进行处理的第一待处理文本和第二待处理文本输入目标文本处理模型进行文本处理；若差值未处于预设差值范围，则将训练获得的文本处理模型作为下一轮模型训练所使用的待训练模型。

需要说明的是，上述仅仅是以利用文本进行模型训练为例进行说明的，得到的文本处理模型不仅可以对文本进行处理，还可以对图像等其他数据进行处理；此外，还可以利用图像进行模型训练。

在训练获得目标文本处理模型，即最终确定的用于进行文本处理的文本处理模型后，本实施例提供的一种可选实施方式中，在进行文本处理的过程中，执行如下操作：

获取第一待处理文本和第二待处理文本；

将所述第一待处理文本和所述第二待处理文本输入所述文本处理模型进行文本处理，得到目标词组和类别检测结果。

具体的，将第一待处理文本和第二待处理文本输入训练获得的文本处理模型进行文本处理，文本处理模型在进行文本处理的过程中，第一编码器对第一待处理文本和所述第二待处理文本进行编码处理得到文本语义向量后，将文本语义向量输入解码器对第一待处理文本进行词组预测，以及，将文本语义向量输入衰减模块进行向量衰减，并将所述衰减模块得到的衰减向量输入第二编码器对第一待处理文本与第二待处理文本进行类别异同检测，最后得到目标词组和类别检测结果。

还需要说明的是，目标文本处理模型可以同时通过解码器进行词组预测以及通过第二编码器进行类别异同检测，但在实际应用中，由于利用第一文本和第二文本共同训练的解码器和第二编码器的性能高于仅利用第一文本训练获得的解码器和第二编码器，因此，也可只利用目标文本处理模型进行词组预测和类别异同检测中的一种，具体的，可人工控制目标文本处理模型对于词组预测和类别异同检测两者的实现或者其中一者的实现，还可由目标文本处理模型根据输入(一个文本还是两个文本)自身控制对于词组预测和类别异同检测两者的实现或者其中一者的实现。换句话来说，在应用目标文本处理模型的过程中，可只使用第一编码器和解码器这两者进行文本处理，也可只使用第一编码器和第二编码器这两者进行文本处理。

除此之外，目标文本处理模型中包括的其他在进行文本处理的过程中需要包含的模块，可根据实际场景进行配置，例如，还需要配置第三编码器对处理结果的输出进行编码，在编码后输出；本实施例在此不再赘述。

下述以本实施例提供的一种文本处理模型训练方法在文本场景的应用为例，结合图2，对本实施例提供的文本处理模型训练方法进行进一步说明，参见图4，应用于文本场景的文本处理模型训练方法，具体包括下述步骤。

如图2所示，预设文本为“重庆老火锅是川渝地区传统美食之一”，在经过随机词组处理后，获得的第一文本为：“重庆□□是川渝地区□□之一”；对预设文本进行数据增强，获得第一文本的正例样本的第二文本为“重庆老火锅是四川和重庆经典美食的一种”，将第一文本和第二文本以“重庆□□是川渝地区□□之一重庆老火锅是四川和重庆经典美食的一种”的形式进行数字转换，获得如图2中的E1-En，然后将E1-En输入待训练模型的第一编码器，第一编码器通过三层神经网络进行编码处理，获得文本语义向量U1-Un，将U1-Un输入解码器，解码器通过三层神经网络进行词组预测，得到预测词组，以及，将U1-Un输入衰减模块进行数据减半处理，将衰减模块进行数据减半处理后得到的衰减向量输入第二编码器进行第一文本和第二文本的类别异同检测，得到类别检测结果，然后利用预测词组、实际词组、类别检测结果和实际类别异同结果计算待训练模型的损失值，并基于损失值自上而下逐层进行参数更新，获得训练后的文本处理模型。

若第二文本为第一文本的负例样本，则基于第一文本和第二文本进行模型训练的过程与上述图2提供的过程类似，在此不再赘述。

步骤S402，确定对预设文本进行词组处理的待处理词组，并对待处理词组进行词组掩盖处理，获得第一文本。

步骤S404，对预设文本进行数据增强获得第二文本。

步骤S406，将第一文本和第二文本进行输入待训练模型进行模型训练，得到文本处理模型。

其中，待训练模型包括第一编码器、第二编码器、解码器和衰减模块；如图5所示，应用于文本场景的模型训练过程包括下述步骤S406-2至步骤S406-16：

步骤S406-2，获取输入待训练模型的第一文本和第二文本，对第一文本和第二文本进行数字转换。

步骤S406-4，第一编码器对转换后的第一数字文本和第二数字文本进行编码处理，获得文本语义向量。

具体的，将第一数字文本和第二数字文本进行编码处理，获得文本语义向量。

步骤S406-6，解码器基于文本语义向量对第一文本进行词组预测，得到预测词组。

具体的，将文本语义向量输入解码器对第一文本进行词组预测。

步骤S406-8，衰减模块基于文本语义向量进行向量衰减，得到衰减向量。

具体的，将文本语义向量输入衰减模块进行向量衰减，得到衰减向量。

步骤S406-10，第二编码器基于衰减向量对第一文本和第二文本进行类别异同检测，得到类别检测结果。

具体的，将衰减向量输入第二编码器对第一文本和第二文本进行类别异同检测，得到类别检测结果。

步骤S406-12，基于预测词组、实际词组、类别检测结果以及实际类别异同结果计算待训练模型的损失值。

步骤S406-14，根据损失值对解码器、第二编码器和衰减模块进行参数更新。

步骤S406-16，基于损失值，以及解码器、第二编码器、衰减模块的参数更新结果，对第一编码器进行参数更新，得到训练后的文本处理模型。

综上所述，利用第一文本和第二文本进行模型训练，解决了仅根据解码器进行生成任务自监督学习的过程中需要对文本细节和语义有深入的理解，但是因为训练的文本标签仅仅来源于第一文本，使得文本标签过于单一的问题，同时，解决了仅根据第二编码器进行对比学习的过程中更多关注数据的整体抽象特征，导致的对细节特征的丢失。通过第二编码器的架构从整体抽象特征来检测两个文本是否为同类文本，如果是同类文本，则可以在解码器进行词组预测的过程中以第二文本为参考，这样降低了解码器的实现难度，但是通过引入了与第一文本同类的第二文本，提升了待训练模型理解不同文本中相同语义的词组的替换使用，增强模型语义理解的泛化能力；

如果是不同类数据，待训练模型需要对抗不同类的文本对解码器的干扰，还要根据第一文本本身进行词组预测，一方面增强了第二编码器对文本是否属于同一类的判断，即特征抽象能力，另一方面，在抗干扰的过程中需要使解码器依据第一文本本身进行词组预测，加强了解码器的语义理解能力。

此外，在进行参数更新的过程中，通过对第二编码器和解码器的更新结果以及损失值，对第一编码器进行参数更新，提升第一编码器对于第一文本和第二文本进行编码处理后获得的文本语义向量的有效性。

参照图6，本实施例提供的文本处理模型训练方法，具体包括步骤S602。

步骤S602，将第一待处理文本和第二待处理文本输入文本处理模型进行文本处理，得到目标词组和类别检测结果。

所述文本处理模型包括第一编码器、第二编码器、解码器和衰减模块；其中，所述第一编码器用于对所述第一待处理文本和所述第二待处理文本进行编码处理得到文本语义向量，所述解码器用于基于所述文本语义向量对所述第一待处理文本进行词组预测，得到所述目标词组；所述衰减模块用于基于所述文本语义向量进行向量衰减得到衰减向量；所述第二编码器用于基于所述衰减向量对所述第一待处理文本与所述第二待处理文本进行类别异同检测，得到所述类别检测结果。

具体的，文本处理模型在进行文本处理的过程中，所述第一编码器对所述第一待处理文本和所述第二待处理文本进行编码处理得到文本语义向量后，将所述文本语义向量输入所述解码器对所述第一待处理文本进行词组预测，以及，将所述文本语义向量输入所述衰减模块进行向量衰减，并将所述衰减模块得到的衰减向量输入所述第二编码器对所述第一待处理文本与所述第二待处理文本进行类别异同检测。

所述文本处理模型，采用上述提供的文本处理模型训练方法训练获得，具体请参照上述提供的文本处理模型训练方法实施例，本实施例在此不再赘述。

除了同时实现对第一待处理文本的词组预测和对第一文本与第二文本类别异同检测，文本处理模型还可仅对第一待处理文本进行词组预测，对第一待处理文本和第二待处理文本进行类别异同检测；

具体的，可由人工通过配置的控件选择具体实现词组预测或者类别异同检测；还可由文本处理模型自身根据输入确定进行词组预测还是类别异同检测；例如，若输入仅有一个文本，则仅对第一文本的词组预测；此外，文本处理模型还可通过其他配置来控制实现词组预测和类别异同检测两者中的任意一者或者两者。

如图7所示，第一待处理文本为“重庆□□是川渝地区□□之一”，第二待处理文本为“重庆是有名的山城”，将“重庆□□是川渝地区□□之一”和“重庆是有名的山城”以“重庆□□是川渝地区□□之一重庆是有名的山城”的形式进行数字转换，获得如图7中的E1-En，然后将E1-En输入待训练模型的第一编码器，第一编码器通过三层神经网络进行编码处理，获得文本语义向量U1-Un，将U1-Un输入解码器，解码器通过三层神经网络进行词组预测，得到预测词组“老火锅传统美食”，以及，将U1-Un输入衰减模块进行数据减半处理，将衰减模块进行随机数据丢弃处理后得到的衰减向量输入第二编码器进行第一待处理文本和第二待处理文本的类别异同检测，得到类别检测结果“0”(表示不同类)。

本说明书提供的一种文本处理模型训练装置实施例如下：

在上述的实施例中，提供了一种文本处理模型训练方法，与之相对应的，还提供了一种文本处理模型训练装置，下面结合附图进行说明。

参照图8，其示出了本实施例提供的一种文本处理模型训练装置示意图。

由于装置实施例对应于方法实施例，所以描述得比较简单，相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

本实施例提供一种文本处理模型训练装置，包括：

文本获取模块802，用于获取第一文本和第二文本，所述第二文本为所述第一文本的正例样本或者负例样本；

模型训练模块804，用于将所述第一文本和所述第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；

本说明书提供的一种文本处理模型训练设备实施例如下：

对应上述描述的一种文本处理模型训练方法，基于相同的技术构思，本申请实施例还提供一种文本处理模型训练设备，该文本处理模型训练设备用于执行上述提供的文本处理模型训练方法，图9为本申请实施例提供的一种文本处理模型训练设备的结构示意图。

本实施例提供的一种文本处理模型训练设备，包括：

如图9所示，文本处理模型训练设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器901和存储器902，存储器902中可以存储有一个或一个以上存储应用程序或数据。其中，存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括文本处理模型训练设备中的一系列计算机可执行指令。更进一步地，处理器901可以设置为与存储器902通信，在文本处理模型训练设备上执行存储器902中的一系列计算机可执行指令。文本处理模型训练设备还可以包括一个或一个以上电源903，一个或一个以上有线或无线网络接口904，一个或一个以上输入/输出接口905，一个或一个以上键盘906等。

在一个具体的实施例中，文本处理模型训练设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对文本处理模型训练设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

所述第一文本和所述第二文本输入待训练模型进行模型迭代训练，得到文本处理模型；

本说明书提供的一种计算机可读存储介质实施例如下：

对应上述描述的一种文本处理模型训练方法，基于相同的技术构思，本申请实施例还提供一种计算机可读存储介质。

本实施例提供的计算机可读存储介质，用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现以下流程：

需要说明的是，本说明书中关于计算机可读存储介质的实施例与本说明书中关于文本处理模型训练方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应方法的实施，重复之处不再赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文本处理模型训练设备的处理器以产生一个机器，使得通过计算机或其他可编程文本处理模型训练设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程文本处理模型训练设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程文本处理模型训练设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

Claims

1.一种文本处理模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，若所述第二文本为所述第一文本的正例样本，所述获取第一文本和第二文本，包括：

确定预设文本中需要进行词组处理的待处理词组，对所述待处理词组进行词组掩盖处理，获得所述第一文本；

对所述预设文本进行数据增强，获得所述第二文本。

3.根据权利要求1所述的方法，其特征在于，若所述第二文本为所述第一文本的负例样本，所述获取第一文本和第二文本，包括：

确定样本集中的目标文本中需要进行词组处理的待处理词组，对所述待处理词组进行词组掩盖处理，获得所述第一文本；

其中，所述目标文本为所述样本集中任意一个文本样本。

4.根据权利要求1所述的方法，其特征在于，所述根据所述预测词组、所述类别检测结果、实际词组以及实际类别异同结果，计算所述待训练模型的损失值，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述损失值对所述第二编码器、所述解码器、所述衰减模块和所述第一编码器进行参数更新，包括：

6.根据权利要求1所述的方法，其特征在于，所述进行向量衰减，包括：

对所述文本语义向量进行数据减半；或者，对所述文本语义向量进行随机数据丢弃。

7.一种文本处理方法，其特征在于，所述方法包括：

将第一待处理文本和第二待处理文本输入文本处理模型进行文本处理，得到目标词组和类别检测结果；所述文本处理模型利用权利要求1至6任意一项所述的方法训练得到；

8.一种文本处理模型训练装置，其特征在于，所述装置包括：

9.一种文本处理模型训练设备，其特征在于，所述设备包括：

处理器；以及，被配置为存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行如权利要求1-6任一项所述的文本处理模型训练方法或者如权利要求7所述的文本处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机可执行指令，所述计算机可执行指令在被处理器执行时实现如权利要求1-6任一项所述的文本处理模型训练方法或者如权利要求7所述的文本处理方法。