CN112115267A

CN112115267A - 文本分类模型的训练方法、装置、设备及存储介质

Info

Publication number: CN112115267A
Application number: CN202011038589.6A
Authority: CN
Inventors: 刘广; 黄海龙
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-12-22
Anticipated expiration: 2040-09-28
Also published as: CN112115267B; WO2022062404A1

Abstract

本申请适用于人工智能技术领域，提供了一种文本分类模型的训练方法、装置、设备及存储介质。该方法获取训练样本集，训练样本集包括N个有标训练样本和M个无标训练样本，每个有标训练样本包括文本信息以及文本信息的类别标签，每个无标训练样本包括文本信息；M和N均为大于1的整数；根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型；其中，在第i次交替迭代训练过程中，M个增强训练样本根据第i‑1次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成，i为大于1的整数。本申请实施例提供的文本分类模型的训练方法提高了最终得到的文本分类模型的性能。

Description

文本分类模型的训练方法、装置、设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种文本分类模型的训练方法、装置、设备及存储介质。

背景技术

文本分类作为自然语言处理的一项重要任务，正在得到越来越广泛的研究和应用。现实场景中基于文本分类模型进行文本分类，通常会遇到数据量多标注少(低资源)问题，面对一个标注数据稀缺的低资源应用场景，半监督训练方法可以利用非常少量的标注语料以及大量无标注数据得到一个高性能的文本分类模型。

目前，半监督训练方法通常采用虚拟对抗训练(Virtual Adversarial Training，VAT)来进行，虚拟对抗训练VAT通过在待标注数据中引入噪音向量(局部扰动)以泛化模型。但是由于噪音向量的可解释性差，VAT不能很好的指出待标注数据的类型，并不能帮助我们在数据量少的情况下对未来标注数据的类型提供指引，且当标注数据量小时模型对噪音更加敏感，因此造成了文本分类模型的分类效果不佳。

发明内容

有鉴于此，本申请实施例提供了一种文本分类模型的训练方法、装置、设备及存储介质，以解决现有技术中文本分类模型的分类效果不佳的技术问题。

第一方面，本申请实施例提供了一种文本分类模型的训练方法，包括：

获取训练样本集，训练样本集包括N个有标训练样本和M个无标训练样本，每个有标训练样本包括文本信息以及文本信息的类别标签，每个无标训练样本包括文本信息；M和N均为大于1的整数；

根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型；其中，在第i次交替迭代训练过程中，M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成，i为大于1的整数。

在第一方面的一种可能实现方式中，交替迭代训练的次数为多次，且每次交替迭代训练过程包括k次子迭代过程；

根据所述训练样本集以及M个增强训练样本，对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型，包括：

对于每次交替迭代训练中的第j次子迭代过程，按照预设比例从训练样本集中抽取有标训练样本以及无标训练样本；其中，1＜j≤k；

根据第j-1次子迭代得到的文本增强模型对抽取的无标训练样本进行处理，获得与无标训练样本对应的增强训练样本；

将增强训练样本、抽取的有标训练样本以及无标训练样本作为输入，对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练，得到第j次子迭代得到的文本分类模型和第j次子迭代得到的文本增强模型；

返回执行按照预设比例从所述训练样本集中抽取有标训练样本以及无标训练样本的步骤，直至训练样本集中N个有标训练样本和M个无标训练样本均迭代一次后，获得当前交替迭代训练后的文本分类模型。

在第一方面的一种可能实现方式中，将增强训练样本、抽取的有标训练样本以及无标训练样本作为输入，对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练，得到第j次子迭代的文本分类模型和第j次子迭代的文本增强模型，包括：

将增强训练样本、抽取的有标训练样本以及无标训练样本作为输入，基于第j-1次子迭代得到的文本分类模型确定第一损失函数值；

保持第j-1次子迭代得到的文本增强模型的参数不变，根据第一损失函数值，更新第j-1次子迭代得到的文本分类模型的参数，获得第j次子迭代得到的文本分类模型；

保持第j次子迭代得到的文本分类模型的参数不变，根据第一损失函数值更新第j-1次子迭代得到的文本增强模型的参数，获得第j次子迭代得到的文本增强模型。

在第一方面的一种可能实现方式中，基于第j-1次子迭代得到的文本分类模型确定第一损失函数值，包括：

将有标训练样本中的文本信息作为特征，将与文本信息对应的类别标签作为标签，基于第j-1次子迭代得到的文本分类模型，获得第二损失函数值；

将无标训练样本以及与无标训练样本对应的增强训练样本作为输入，基于第j-1次子迭代得到的文本分类模型，获得第三损失函数值；

根据第二损失函数值以及第三损失函数值确定第一损失函数值。

在第一方面的一种可能实现方式中，根据第j-1次子迭代得到的文本增强模型对无标训练样本进行处理，获得与无标训练样本对应的增强训练样本，包括：

对无标训练样本进行分词处理，获得无标训练样本对应的第一文本序列，第一文本序列包括至少一个单词；

基于预设词典对第一文本序列进行编码，生成第一文本序列对应的第一向量，第一向量包括多个编码值；

基于预设概率对第一向量中的编码值进行掩码处理，生成第一向量对应的第二向量；

将第二向量输入第j-1次子迭代得到的文本增强模型，获得与无标训练样本对应的增强训练样本。

在第一方面的一种可能实现方式中，将第二向量输入第j-1次子迭代得到的文本增强模型，获得与无标训练样本对应的增强训练样本，包括：

将第二向量输入第j-1次子迭代得到的文本增强模型，获取第二向量中各个掩码位置的单词概率分布；

基于多项式分布采样处理，确定各个掩码位置对应的单词；

根据第二向量以及各个掩码位置对应的单词，确定与第二向量对应的增强训练样本。

在第一方面的一种可能实现方式中，交替迭代训练结束的条件包括下述至少一个：

交替迭代训练的次数等于n次或目标文本分类模型的输出结果收敛；其中，n≥i。

第二方面，本申请实施例提供了一种文本分类模型的训练装置，装置包括：

获取模块，用于获取训练样本集，训练样本集包括N个有标训练样本和M个无标训练样本，每个有标训练样本包括文本信息以及文本信息的类别标签，每个无标训练样本包括文本信息；

训练模块，用于根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型；其中，在第i次交替迭代训练过程中，M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成，i为大于1的整数。

第三方面，本申请实施例提供了一种文本分类模型的训练设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面任一项方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一项方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项的方法。

本申请实施例提供的文本分类模型的训练方法，一方面根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，即可以对文本分类模型进行训练的同时对该文本增强模型进行训练，根据文本分类模型的分类性能对数据增强策略进行归纳训练，从而使得文本分类模型的训练目标与文本增强模型的训练目标一致，极大的提高了最终得到的文本分类模型的性能；且在每一次交替迭代训练过程中，M个增强训练样本根据上一次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成，文本增强的目标在于基于无标训练样本扩充数据/修改数据获得类似于真实数据的增强训练样本，通过文本增强得到的增强训练样本相对于现有技术中VAT得到的增强样本，可解释性强，可以对未来标注数据的类型提供指引。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的文本分类模型的训练方法的流程示意图；

图2为本申请一实施例提供的一次交替迭代训练过程的流程示意图；

图3为本申请一实施例提供的获得第j次子迭代得到的文本分类模型和文本增强模型的流程示意图；

图4为本申请实施例提供的子迭代训练的流程示意图；

图5为本申请一实施例提供的确定第一损失函数值的流程示意图；

图6为本申请一实施例提供的获得与无标训练样本对应的增强训练样本的流程示意图；

图7为本申请一实施例提供的文本分类模型的训练装置的结构示意图；

图8是本申请一实施例提供的文本分类模型的训练设备的硬件组成示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行示例性说明。值得说明的是，下文中列举的具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图1为本申请一实施例提供的文本分类模型的训练方法的流程示意图。如图1所示，该方法包括：

S10、获取训练样本集，训练样本集包括N个有标训练样本和M个无标训练样本，每个有标训练样本包括文本信息以及文本信息的类别标签，每个无标训练样本包括文本信息。

本实施例中，有标训训练样本表征有标注语料，无标训练样本表征无标注语料，为了与实际应用中有标注语料稀缺的低资源应用场景相匹配，本实施例中训练样本集中无标训练样本的个数M远远大于有标训练样本的个数N，其中M和N均为大于1的整数。

本实施例中，文本信息可以是指待分类的文本序列，类别标签可以待分类的文本序列所表征内容的类别。

本实施例中，可以根据文本分类模型的应用领域确定类别标签。

例如，文本分类模型用于金融情感分类领域，则类别标签可以是指待分类的文本序列所表达内容的情感倾向。其中，情感倾向可以为正面消息、中立消息以及负面消息中的任意一项。

本实施例中，可以根据文本分类模型的应用领域获取训练样本集，以增加文本分类模型的针对性。

本实施例中，还可以获取验证样本集，其中，验证样本集中包括P个验证样本，每个验证样本包括验证文本信息以及该验证文本信息的类别标签。

S20、根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型；其中，在第i次交替迭代训练过程中，M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成，i为大于1的整数。

本实施例的目的在于通过在对初始文本分类模型和初始文本增强模型交替进行训练，以使得初始文本分类模型的训练目标与初始文本增强模型的训练目标一致，从而增强文本分类模型的分类性能。

其中，初始文本增强模型的输出为初始文本分类模型的输入，训练目标一致可以是指，训练后的文本增强模型的输出与训练后的文本分类模型的输入相匹配，使得训练后的文本分类模型的对无标文本信息的分类效果更好。

本实施例中，初始文本分类模型的可以作为一个分类器，给所述初始文本分类模型输入一个包含文本信息的样本，则初始文本分类模型会对该样本进行一个分类，判断该输入样本的类别标签，同时也可以获得该样本的损失函数值，以便根据损失函数值对初始文本分类模型的模型参数进行优化。

初始文本增强模型可以作为一个样本生成器，初始文本增强模型可以对没有类别标签的文本信息扩充数据/修改数据获得类似于真实数据的增强样本。

其中，初始文本分类模型和初始文本增强模块均可以是开源的语言模型，在此不做具体限定。

示例性地，初始文本分类模型为BERT模型，初始文本增强模型为CBERT模型。

本实施例中，对初始文本分类模型和初始文本增强模型进行交替迭代训练可以是指，在一次迭代训练过程中，依次对当前的文本分类模型模型参数和当前的文本增强模型的模型参数进行更新。

例如，首先保持当前的文本增强模型的参数不变，更新当前的文本分类模型的参数，获得更新后的文本分类模型。然后保持更新后的文本分类模型的参数不变，更新当前的文本增强模型的参数，获得更新后的文本增强模型。然后在下一次迭代训练过程中，根据更新后的文本分类模型和更新后的文本增强模型。重复上述过程，从而实现了文本分类模型和文本增强模型的交替迭代训练。

本实施例中，在第1次交替迭代训练中，根据初始文本增强模型对M个无标训练样本进行文本增强处理生成M个增强训练样本。然后，根据训练样本集以及上述M个增强训练样本对初始文本分类模型和初始文本增强模型进行一次交替迭代训练，获得第1次交替迭代得到的文本分类模型以及第1次交替迭代得到的文本增强模型。

在第2次交替迭代训练中，根据第1次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成M个增强训练样本。然后，根据训练样本集以及上述M个增强训练样本，对第1次交替迭代得到的文本分类模型以及第1次交替迭代得到的文本增强模型进行一次交替迭代训练，获得第2次交替迭代得到的文本分类模型以及第2次交替迭代得到的文本增强模型。

在第i次交替迭代训练过程中，根据第i-1次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成M个增强训练样本。然后，根据训练样本集以及上述M个增强训练样本，对第i-1次交替迭代得到的文本分类模型以及第i-1次交替迭代得到的文本增强模型进行一次交替迭代训练，获得第i次交替迭代得到的文本分类模型以及第i次交替迭代得到的文本增强模型。

执行上述交替迭代训练过程，直至满足预设的交替迭代训练结束条件，获得目标文本分类模型。

应理解的是，每一次交替迭代过程中的M个无标训练样本可以不同。

本实施例中，交替迭代训练结束的条件可以包括：交替迭代训练的次数等于n次，其中，n≥i。

相应地，交替迭代训练后的生成目标文本分类模型为：第n次交替训练后的文本分类模型。

交替迭代训练结束的条件还可以包括，在最新一次交替训练过程后，目标文本分类模型的输出结果收敛。

相应地，所述交替迭代训练后的生成目标文本分类模型为：最新一次交替训练后的文本分类模型。

其中，判断文本分类模型的输出结果收敛可以基于S10获取的验证集进行判断，验证样本集中包括P个验证样本，每个验证样本包括验证文本信息以及该验证文本信息的类别标签。

具体地，在第i次交替迭代训练完成后，将P个验证样本的验证文本信息作为特征，将P个验证样本的验证文本信息的类别标签作为标签，根据第i次交替训练得到的文本分类模型获得第i个损失函数值，

则可以根据每次交替迭代训练后的损失函数值，判断当前第i个损失函数值是否收敛，若收敛，则将第i次交替训练得到的文本分类模型作为目标文本分类模型，若未收敛，则进行第i+1次交替迭代训练，直至当前交替迭代训练的损失函数收敛。

由图1实施例可知，得到目标文本分类模型的交替迭代训练的次数为多次，且每次交替迭代训练过程包括k次子迭代过程。其中，每次交替迭代训练的处理方式相同，且每次子迭代过程的处理方式也相同，下面通过图2实施例对一次交替迭代过程进行示例性说明。

图2为本申请一实施例提供的一次交替迭代训练过程的流程示意图。图2实施例描述了图1实施例步骤20中，一次交替迭代过程的可能实施方式。图2所示，根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型，包括：

S21、对于每次交替迭代训练中的第j次子迭代过程，按照预设比例从训练样本集中抽取有标训练样本以及无标训练样本；其中，1＜j≤k。

本实施例中，在每一次交替迭代训练中，将训练样本集中的多个训练样本分为多个批次，按照批次进行上述两个模型的训练。

相应地，每一次交替迭代训练中则均包括了多次子迭代过程(对应多个批次)，每次子迭代过程的处理方式相同。在训练样本集中所有训练样本均迭代一次后，完成本次交替迭代训练的过程，获得本次交替迭代训练后的文本分类模型。

其中，每次交替迭代训练过程包含的子迭代过程可以相同。

本步骤的目的在于获取一个批次的训练样本。

其中，预设比例可以由用户进行设定。例如，有标训练样本与无标训练样本的比值为1:3。

示例性地，j为2，在第2次子迭代过程中，按照1:3的比例从训练样本集中抽取有标训练样本以及无标训练样本，获得S个有标训练样本和3S个无标训练样本。该S个有标训练样本和3S个无标训练样本为一批次的训练数据。

S22、根据第j-1次子迭代得到的文本增强模型对抽取的无标训练样本进行处理，获得与无标训练样本对应的增强训练样本。

本实施例中，根据上一次子迭代(第j-1次)子迭代得到的文本增强模型对无标训练样本进行文本增强处理，生成该多个无标训练样本在第j次子迭代过程中各自分别对应的增强训练样本。

其中，无标训练样本是指步骤21抽取到的3S个无标训练样本。

可以理解的是，增强训练样本的个数与抽取到的无标训练样本的个数一一对应。

S23、将增强训练样本、抽取的有标训练样本以及无标训练样本作为输入，对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练，得到第j次子迭代得到的文本分类模型和第j次子迭代得到的文本增强模型。

S24、返回执行按照预设比例从所述训练样本集中抽取有标训练样本以及无标训练样本的步骤，直至训练样本集中N个有标训练样本和M个无标训练样本均迭代一次后，获得当前交替迭代训练后的文本分类模型。

本实施例中，在得到第j次子迭代得到的文本分类模型和第j次子迭代得到的文本增强模型后，判断训练样本集中N个有标训练样本和M个无标训练样本是否均迭代一次。

若是，则将第j次子迭代得到的文本分类模型和第j次子迭代得到的文本增强模型，确定为本次交替迭代训练得到的文本分类模型和文本增强模型。

若否，则进入第j+1次子迭代，返回执行上述步骤21至步骤23。

此时步骤21中抽取到的训练样本，与第j次子迭代过程中抽取到的训练样本不同。

执行上述子迭代训练过程，直至训练样本集中N个有标训练样本和M个无标训练样本均迭代一次后，获得当前交替迭代训练后的文本分类模型。

本申请实施例提供的交替迭代训练过程，将训练样本集中的多个训练样本分为多个批次，按照批次进行上述两个模型的训练。其中，每个批次同时包含有标训练样本和无标训练样本，一个批次中一组数据共同决定了本次梯度的方向，下降起来梯度就不易跑偏，减少随机性，且每个批次的样本数据量与整个训练样本集的数据集相比小了很多，每次的迭代训练的计算量将大大降低。

图3为本申请一实施例提供的获得第j次子迭代得到的文本分类模型和文本增强模型的流程示意图，描述了图2实施例中S23的一种可能性实施方式。如图3所示，将增强训练样本、抽取的有标训练样本以及无标训练样本作为输入，对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练，得到第j次子迭代的文本分类模型和第j次子迭代的文本增强模型，包括：

S231、将增强训练样本、抽取的有标训练样本以及无标训练样本作为输入，基于第j-1次子迭代得到的文本分类模型确定第一损失函数值。

本实施例中，第一损失函数值包括有监督损失函数值，和无监督损失函数值，其中，有监督损失函数值根据有标训练样本生成，无监督损失函数值根据无标训练样本以及对应的增强训练样本生成。

示例性地，请一并参阅图4，图4为本申请实施例提供的子迭代训练的流程示意图。如图4所示，文本分类模型的输入包括有标训练样本、无标训练样本以及无标训练样本经过文本增强模型处理后的增强训练样本，文本分类模型的输出包括有监督的损失以及无监督的损失，其中，有监督的损失根据有标训练样本生成，无监督的损失根据无标训练样本以及对应的增强训练样本生成。

文本增强模型的输入为无标训练样本，输出为对应无标训练样本的增强训练样本。

如图4所示，在每一次子迭代过程中，将抽取到的有标训练样本以及无标训练样本作为输入，最终获得有监督损失和无监督损失，两者的函数值共同构成第一损失函数值。

S232、保持第j-1次子迭代得到的文本增强模型的参数不变，根据第一损失函数值，更新第j-1次子迭代得到的文本分类模型的参数，获得第j次子迭代得到的文本分类模型。

S233、保持第j次子迭代得到的文本分类模型的参数不变，根据第一损失函数值更新第j-1次子迭代得到的文本增强模型的参数，获得第j次子迭代得到的文本增强模型。

本实施例中，在第j-1次子迭代的过程中，通过反向传播依次更新第j-1次子迭代得到的文本分类模型的参数，以及第j-1次子迭代得到的文本增强模型的参数。

图5为本申请一实施例提供的确定第一损失函数值的流程示意图，描述了图3实施例中S231的一种可能的实施方式，如图5所示，基于第j-1次子迭代得到的文本分类模型确定第一损失函数值，包括：

S2311、将有标训练样本中的文本信息作为特征，将与文本信息对应的类别标签作为标签，基于第j-1次子迭代得到的文本分类模型，获得第二损失函数值。

本实施例中，第二损失函数值可以是指交叉熵函数的值。

交叉熵函数的公式可以参见下式：

其中，L₁为交叉熵函数值，M为有标训练样本的个数，y_m是第m个有标训练样本的类别标签，p_m是第m个有标训练样本的概率分布，其中m为大于等于1且小于等于M的整数。

S2312、将无标训练样本以及与无标训练样本对应的增强训练样本作为输入，基于第j-1次子迭代得到的文本分类模型，获得第三损失函数值。

本实施例中，第三损失函数值用于表征无标训练样本的概率分布以及增强训练样本概率分布的接近程度。

例如，第三损失函数值可以是KL散度，KL散度用于比较两个概率分布的接近程度。

示例性地，本实施例中，第三损失函数值的计算公式可以参见式(2)：

其中，D_KL(p|q)是指KL散度值，N为无标训练样本的个数，x_n是第n个无标训练样本，p(x_n)是第n个无标训练样本的概率分布，q(x_n)是第n个无标训练样本对应的增强训练样本的概率分布，其中n为大于等于1且小于等于N的整数。

S2313、、根据第二损失函数值以及所述第三损失函数值确定第一损失函数值。

本实施例中，第一损失函数值包括根据有标训练样本生成的有监督损失函数值，和根据无标训练样本生成的无监督损失函数值，其中有监督损失函数值可以是指第二损失函数值，无监督损失函数值可以是指第三损失函数值。

例如，第一损失函数值的计算公式可以表示为式(3)

L＝L₁+r·D_KL(p|q) (3)

其中，L₁为式(1)中的交叉熵函数值，D_KL(p|q)为式(2)中的KL散度值，r为超参数。

图6为本申请一实施例提供的获得与无标训练样本对应的增强训练样本的流程示意图，描述了图2实施例中S22的一种可能的实施方式，如图6所示，根据第j-1次子迭代得到的文本增强模型对无标训练样本进行处理，获得与无标训练样本对应的增强训练样本，包括：

S221、对无标训练样本进行分词处理，获得无标训练样本对应的第一文本序列，第一文本序列包括至少一个单词。

本步骤中，分词处理可以是指将无标训练样本中的连续的文本序列按照一定的规范切分为单独的单词。

其中，可以根据句法以及语义对无标训练样本进行分词处理。

例如，无标训练样本为“我喜欢打篮球，小明也喜欢”，按照语义对该无标训练样本进行分词生成对应的第一文本序列{我，喜欢，打，篮球，小明，也，喜欢}。

应理解的是，上述分词处理方法仅为一个示例，可以基于现有的分词工具对无标训练样本进行分词处理，在此不做限定。

S222、基于预设词典对第一文本序列进行编码，生成第一文本序列对应的第一向量，第一向量包括多个编码值。

本步骤中，预设词典可以包含标准的现代汉语语料库中所有单词、面向对象的领域关键词以及专业术语；预设词典还可以包括上述所有单词各自分别的数值。应理解的是，预设词典中每个单词对应的数值一般不相同。

本步骤中，基于预设词典对所述第一文本序列进行编码，可以是指，将该第一文本序列中每个单词映射为预设词典中对应的数值，获得目标向量，在所述目标向量的起始位置之前添加启始标识，以及在所述第一向量的终止位置之后添加终止标识，生成第一文本序列对应的第一向量。

其中，启始标识别可以为<CLS>，终止标识可以为<SEP>。

为了便于进行后续处理，第一向量的长度为固定值L，例如可以为128。

在目标向量的长度不满足要求的情况下，可以通过在目标向量的终止位置之后增加无效编码值，例如0，使得目标向量的长度满足要求。

示例性的，第一文本序列为{我，喜欢，打，篮球，小明，也，喜欢}。

则对应的第一向量可以为[CLS,1,2,3,4,5,6,7,2,0,0,0……SEP]，第一向量中的数值为第一文本序列中各单词对应的编码值，第一向量的长度为128。

S223、基于预设概率对第一向量中的编码值进行掩码处理，生成第一向量对应的第二向量。

本实施例中，预设概率表征了第一向量中用于进行掩码处理的编码值与第一向量中所有编码值的比值。预设概率可以由用户设定，在此不做限定。

例如，预设概率可以为15％。

本步骤中，第二向量为对第一向量中的部分编码值掩码处理得到的，故第二向量具有多个掩码位置。

S224、将第二向量输入第j-1次子迭代得到的文本增强模型，获得与无标训练样本对应的增强训练样本。

本实施例中，获得与无标训练样本对应的增强训练样本可以包括下述步骤：

步骤1、将第二向量输入第j-1次子迭代得到的文本增强模型，获取第二向量中各个掩码位置的单词概率分布。

其中，各个掩码位置的概率分布可以是指，预设词典中所有词在该掩码位置出现的概率分布。

例如，第二向量可以为Y，第二向量中包括x个掩码位置，则针对每个掩码位置，该掩码位置的概率分布可以是指预设词典中所有词在该掩码位置出现的概率分布。

示例性地，预设词典包含k个单词，分别为A₁，A₂，……A_k，k个单词在掩码位置的概率分布为p₁，p₂，……p_k，其中p_i表征了A_i出现的概率，其中i为大于等于1且小于等于k的值。

步骤2、基于多项式分布采样处理，确定各个掩码位置对应的单词。

本步骤中，多项式分布为二项式分布的一个扩展。

示例性地，假设随机试验有k个可能的结果A₁，A₂，……A_k，每个结果出现的次数为随机变量X₁，X₂，……Xn，每个结果出现的概率为P₁，P₂，…P_k，则经过Q次独立重复试验中A₁出现n₁次，A₂出现n₂次，……，A_k出现n_k次的的概率满足多项式分布，具体可以参考式(4)。

其中，

P(X₁＝n₁,X₂＝n₂,......X_k＝n_k)表示Q次独立重复试验中A₁出现n₁次，A₂出现n₂次，……，A_k出现n_k次的的概率。

本步骤中，第二向量中的掩码位置变换一次，则相当于一个结果A，则可获得多个结果A，根据步骤1中不同掩码位置的概率分布可以获得每个结果出现的概率，进而可以根据每个结果出现的概率，确定不同结果各自分别对应的多项式分布概率值，将上述多项式概率值中最大值对应的结果确定为目标结果，根据目标结果确定各个掩码位置的单词。

步骤3、根据第二向量以及各个掩码位置对应的单词，确定与第二向量对应的增强训练样本。

根据预设词典将第二向量中掩码位置的除掩码位置以外的其他编码值映射为对应的单词，生成第二文本序列，将第二文本序列中各个掩码位置替换为对应的单词，生成与第二向量对应的增强训练文本。

本申请实施例提供的获得与无标训练样本对应的增强训练样本的方法，通过掩码处理，随机掩码到输入的无标训练样本中的一些单词，从这些单词的上下文中预测出上述单次在预设词表中的ID，基于此模型获得增强训练文本融合了上下文信息，可解释性强，可以对未来标注数据的类型提供指引。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

基于上述实施例所提供的文本分类模型的训练方法，本发明实施例进一步给出实现上述方法实施例的装置实施例。

图7为本申请一实施例提供的文本分类模型的训练装置的结构示意图。如图7所示，文本分类模型的训练装置30包括获取模块301和训练模块302，其中：

获取模块301，用于获取训练样本集，训练样本集包括N个有标训练样本和M个无标训练样本，每个有标训练样本包括文本信息以及文本信息的类别标签，每个无标训练样本包括文本信息；

训练模块302，用于根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型；其中，在第i次交替迭代训练过程中，M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成，i为大于1的整数。

本申请实施例提供的文本分类模型的训练装置，一方面根据训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，即可以对文本分类模型进行训练的同时对该文本增强模型进行训练，根据文本分类模型的分类性能对数据增强策略进行归纳训练，从而使得文本分类模型的训练目标与文本增强模型的训练目标一致，极大的提高了最终得到的文本分类模型的性能；且在每一次交替迭代训练过程中，M个增强训练样本根据上一次交替迭代得到的文本增强模型对M个无标训练样本进行文本增强处理生成，文本增强的目标在于基于无标训练样本扩充数据/修改数据获得类似于真实数据的增强训练样本，通过文本增强得到的增强训练样本相对于现有技术中VAT得到的增强样本，可解释性强，可以对未来标注数据的类型提供指引。

可选地，交替迭代训练的次数为多次，且每次交替迭代训练过程包括k次子迭代过程；

相应地，训练模块302用于根据所述训练样本集以及M个增强训练样本，对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型，包括：

根据第j-1次子迭代的得到的文本增强模型对抽取的无标训练样本进行处理，获得与无标训练样本对应的增强训练样本；

可选地，训练模块302用于将增强训练样本、抽取的有标训练样本以及无标训练样本作为输入，对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练，得到第j次子迭代的文本分类模型和第j次子迭代的文本增强模型，包括：

保持第j次子迭代得到的文本分类模型的参数不变，根据第一损失函数值更新第j-1次子迭代得到的文本增强模型的参数，获得第j次子迭代的文本增强模型。

可选地，训练模块302用于基于第j-1次子迭代得到的文本分类模型确定第一损失函数值，包括：

根据第二损失函数值以及所述第三损失函数值确定第一损失函数值。

可选地，训练模块302用于根据第j-1次子迭代得到的文本增强模型对无标训练样本进行处理，获得与无标训练样本对应的增强训练样本，包括：

可选地，训练模块302用于将第二向量输入第j-1次子迭代得到的文本增强模型，获得与无标训练样本对应的增强训练样本，包括：

基于多项式分布采样处理，确定各个掩码位置对应的单词；

可选地，交替迭代训练结束的条件包括下述至少一个：交替迭代训练的次数等于n次或目标文本分类模型的输出结果收敛；其中，n≥i。

图7所示实施例提供的文本分类模型的训练装置，可用于执行上述方法实施例中的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图8是本申请一实施例提供的文本分类模型的训练设备的示意图。如图8所示，该文本分类模型的训练设备40包括：至少一个处理器401、存储器402以及存储在所述存储器402中并可在所述处理器401上运行的计算机程序。文本分类模型的训练设备还包括通信部件403，其中，处理器401、存储器402以及通信部件403通过总线404连接。

处理器401执行所述计算机程序时实现上述各个文本分类模型的训练方法实施例中的步骤，例如图1所示实施例中的步骤S10至步骤S20。或者，处理器401执行计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图7所示模块301至302的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器402中，并由处理器401执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在所述文本分类模型的训练设备40中的执行过程。

本领域技术人员可以理解，图8仅仅是文本分类模型的训练设备的示例，并不构成对文本分类模型的训练设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

本申请实施例中的文本分类模型的训练设备可以为终端设备、服务器等，在此不做具体限制。

所称处理器401可以是中央处理单元(Central Processkng Unkt，CPU)，还可以是其他通用处理器、数字信号处理器(Dkgktal Skgnal Processor，DSP)、专用集成电路(Applkcatkon Speckfkc Kntegrated Ckrcukt，ASKC)、现成可编程门阵列(Fkeld-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器402可以是文本分类模型的训练设备的内部存储单元，也可以是文本分类模型的训练设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Medka Card，SMC)，安全数字(Secure Dkgktal，SD)卡，闪存卡(Flash Card)等。所述存储器402用于存储所述计算机程序以及文本分类模型的训练设备所需的其他程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构(Kndustry Standard Archktecture，KSA)总线、外部设备互连(Perkpheral Component，PCK)总线或扩展工业标准体系结构(ExtendedKndustry Standard Archktecture，EKSA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在文本分类模型的训练设备上运行时，使得文本分类模型的训练设备执行时实现可实现上述各个方法实施例中的步骤。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本分类模型的训练方法，其特征在于，方法包括：

获取训练样本集，所述训练样本集包括N个有标训练样本和M个无标训练样本，每个所述有标训练样本包括文本信息以及文本信息的类别标签，每个所述无标训练样本包括文本信息；其中，M和N均为大于1的整数；

根据所述训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型；其中，在第i次交替迭代训练过程中，所述M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对所述M个无标训练样本进行文本增强处理生成，i为大于1的整数。

2.如权利要求1所述的文本分类模型的训练方法，其特征在于，所述交替迭代训练的次数为多次，且每次交替迭代训练过程包括k次子迭代过程；

所述根据所述训练样本集以及M个增强训练样本，对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型，包括：

对于每次交替迭代训练中的第j次子迭代过程，按照预设比例从所述训练样本集中抽取有标训练样本以及无标训练样本；其中，1＜j≤k；

根据第j-1次子迭代得到的文本增强模型对抽取的无标训练样本进行处理，获得与所述无标训练样本对应的增强训练样本；

将所述增强训练样本、抽取的有标训练样本以及所述无标训练样本作为输入，对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练，得到第j次子迭代得到的文本分类模型和第j次子迭代得到的文本增强模型；

返回执行所述按照预设比例从所述训练样本集中抽取有标训练样本以及无标训练样本的步骤，直至所述训练样本集中N个有标训练样本和M个无标训练样本均迭代一次后，获得当前交替迭代训练后的文本分类模型。

3.如权利要求2所述的文本分类模型的训练方法，其特征在于，所述将所述增强训练样本、抽取的有标训练样本以及所述无标训练样本作为输入，对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练，得到第j次子迭代的文本分类模型和第j次子迭代的文本增强模型，包括：

将所述增强训练样本、抽取的有标训练样本以及所述无标训练样本作为输入，基于第j-1次子迭代得到的文本分类模型确定第一损失函数值；

保持第j-1次子迭代得到的文本增强模型的参数不变，根据所述第一损失函数值，更新第j-1次子迭代得到的文本分类模型的参数，获得第j次子迭代得到的文本分类模型；

保持第j次子迭代得到的文本分类模型的参数不变，根据所述第一损失函数值更新第j-1次子迭代得到的文本增强模型的参数，获得第j次子迭代得到的文本增强模型。

4.如权利要求3所述的文本分类模型的训练方法，其特征在于，所述基于第j-1次子迭代得到的文本分类模型确定第一损失函数值，包括：

将所述有标训练样本中的文本信息作为特征，将与所述文本信息对应的类别标签作为标签，基于第j-1次子迭代得到的文本分类模型，获得第二损失函数值；

将所述无标训练样本以及与所述无标训练样本对应的增强训练样本作为输入，基于第j-1次子迭代得到的文本分类模型，获得第三损失函数值；

根据所述第二损失函数值以及所述第三损失函数值确定所述第一损失函数值。

5.如权利要求2所述的文本分类模型的训练方法，其特征在于，所述根据第j-1次子迭代得到的文本增强模型对所述无标训练样本进行处理，获得与所述无标训练样本对应的增强训练样本，包括：

对所述无标训练样本进行分词处理，获得所述无标训练样本对应的第一文本序列，所述第一文本序列包括至少一个单词；

基于预设词典对所述第一文本序列进行编码，生成所述第一文本序列对应的第一向量，所述第一向量包括多个编码值；

基于预设概率对所述第一向量中的编码值进行掩码处理，生成所述第一向量对应的第二向量；

将所述第二向量输入第j-1次子迭代得到的文本增强模型，获得与所述无标训练样本对应的增强训练样本。

6.如权利要求5所述的文本分类模型的训练方法，其特征在于，所述将所述第二向量输入第j-1次子迭代得到的文本增强模型，获得与所述无标训练样本对应的增强训练样本，包括：

将所述第二向量输入第j-1次子迭代得到的文本增强模型，获取所述第二向量中各个掩码位置的单词概率分布；

基于多项式分布采样处理，确定各个所述掩码位置对应的单词；

根据所述第二向量以及各个所述掩码位置对应的单词，确定与所述第二向量对应的增强训练样本。

7.如权利要求1-6任一项所述的文本分类模型的训练方法，其特征在于，所述交替迭代训练结束的条件包括下述至少一个：

所述交替迭代训练的次数等于n次或所述目标文本分类模型的输出结果收敛；其中，n≥i。

8.一种文本分类模型的训练装置，其特征在于，装置包括：

获取模块，用于获取训练样本集，所述训练样本集包括N个有标训练样本和M个无标训练样本，每个所述有标训练样本包括文本信息以及文本信息的类别标签，每个所述无标训练样本包括文本信息；其中，M和N均为大于1的整数；

训练模块，用于根据所述训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练，得到目标文本分类模型；其中，在第i次交替迭代训练过程中，所述M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对所述M个无标训练样本进行文本增强处理生成，i为大于1的整数。

9.一种文本分类模型的训练设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。