CN112989045A

CN112989045A - 神经网络训练方法、装置、电子设备及存储介质

Info

Publication number: CN112989045A
Application number: CN202110289547.8A
Authority: CN
Inventors: 刘广
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-06-18
Anticipated expiration: 2041-03-17
Also published as: CN112989045B

Abstract

本申请涉及人工智能领域，具体涉及一种神经网络训练方法、装置、电子设备及存储介质。该方法包括：对原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本；将第一文本样本输入到神经网络进行增强预测，得到第一预测结果；将第二文本样本输入到神经网络进行增强预测，得到至少一个第二预测结果；根据至少一个第二预测结果对原始文本样本进行第一语义增强处理，得到第一语义特征向量；对原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对原始样本标签进行标签增强处理，得到第一样本标签；根据原始文本样本、第一语义特征向量、第二语义特征向量、第一预测结果、原始样本标签以及第一样本标签，调整神经网络的网络参数。

Description

神经网络训练方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种神经网络训练方法、装置、电子设备及存储介质。

背景技术

现实场景中在训练文本分类模型时，会遇到标注数据比较少(低资源)的问题。在低资源的情况下，比如，每个类别只有少量样本，模型可能会过拟合导致其性能不达预期。这种过拟合情况在数据极其稀缺的情况下更加明显。面对一个标注数据稀缺的低资源应用场景，数据增强是一种有效的技术方法，可以利用非常少量的标注语料得到一个有一定性能的基础模型，帮助破解低资源困局、减少对标注的需求，快速进入模型优化的迭代开发。

但是，目前的数据增强方法都是通过独立的两个模型实现，一个模型用来进行数据增强，另外一个模型用来文本分类。这样就造成用来增强的模型不能及时的得到文本分类模型的指导，导致增强出的数据不具有针对性，精度低，也造成训练出的文本分类模型分类性能差。

发明内容

本申请实施例提供了一种神经网络训练方法，将增强模型和文本分类模型融合为一个模型进行训练，以提高数据增强的精度以及分类性能。

第一方面，本申请实施例提供一种神经网络训练方法，包括

获取原始文本样本以及与所述原始文本样本对应的原始样本标签；

对所述原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本；

将所述第一文本样本输入到神经网络进行增强预测，得到第一预测结果；

将所述第二文本样本输入到所述神经网络进行增强预测，得到至少一个第二预测结果；

根据所述至少一个第二预测结果对所述原始文本样本进行第一语义增强处理，得到第一语义特征向量；

对所述原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对所述原始样本标签进行标签增强处理，得到第一样本标签；

根据所述原始文本样本、所述第一语义特征向量、所述第二语义特征向量、所述第一预测结果、所述原始样本标签以及所述第一样本标签，调整所述神经网络的网络参数，以对所述神经网络进行训练。

第二方面，本申请实施例提供一种神经网络训练装置，包括：

获取单元，用于获取原始文本样本以及与所述原始文本样本对应的原始样本标签；

处理单元，用于对所述原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本；

第三方面，本申请实施例提供一种电子设备，包括：处理器，所述处理器与存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面所述的方法。

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请的实施方式中，神经网络具有分类功能(比如，在调整网络参数时，可以通过该神经网络对原始文本样本进行文本分类，得到分类损失，并结合分类损失进行模型训练)和增强功能，相当于将分类模型和数据增强模型构造为一个整体的神经网络，并将两个模型一起训练，从而可以让两个模型在训练过程中相互指导，可以使增强模型增强出分类模型所需的样本，分类模型可以给数据增强给予方向指引，控制增强模型增强出与分类模型所需要的样本，提高了数据增强的精度。由于有了增强后的样本，因此，在样本稀缺的情况下，也能得到大量的样本对分类模型进行训练，提高模型的分类性能。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种神经网络训练方法的流程示意图；

图2为本申请实施例提供的一种将单词的向量进行拼接的示意图；

图3为本申请实施例提供的一种确定权重系数的示意图；

图4为本申请实施例提供的一种多次文本增强处理的示意图；

图5为本申请实施例提供的一种神经网络的结构示意图；

图6为本申请实施例提供的一种文本分类方法的流程示意图；

图7为本申请实施例提供的一种文本增强方法的流程示意图；

图8为本申请实施例提供的一种神经网络的功能单元组成框图；

图9为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

参阅图1，图1为本申请实施例提供的一种神经网络训练方法的流程示意图。该方法应用于神经网络训练装置。该方法包括以下步骤：

101：获取原始文本样本以及与原始文本样本对应的原始样本标签。

示例性的，原始样本标签用于标识该原始文本样本所对应的真实文本分类结果。其中，对原始文本样本进行文本分类可以包括多种形式的文本分类，比如，情感分类、文本纠错、文本翻译、文本连续性的预测，等等，本申请不对文本分类的形式进行限定。

102：对原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本。

示例性的，可通过随机遮挡的方式对原始文本样本进行增强处理，得到第一文本样本和第二文本样本。比如，获取预设替换概率(比如，可以为15％)，然后，以预设替换概率将原始文本样本中的每个单词替换为预设单词(Mask)，得到第一文本样本和第二文本样本。具体的，从该原始文本样本中的第一个单词开始，以预设替换概率将该第一个单词替换为预设单词(也就是说，有15％的概率将该第一个单词替换为Mask)，在对该原始文本样本中的所有单词遍历一轮之后，即进行一次文本增强处理之后，得到第一文本样本；同样，遍历第二轮之后，即进行第二次文本增强处理之后，得到第二文本样本。

在本申请的一个实施方式中，在对原始文本样本进行增强处理之前，先通对分词器(tokenizer)对原始文本样本进行分词，得到多个单词(token)；然后，根据原始文本样本的单词的数量对原始文本样本进行缩放处理，以将原始文本样本缩放到该神经网络所规定的尺寸。比如，若原始文本样本的长度(原始文本样本所包含的单词的数量)大于规定的尺寸，将原始文本样本进行裁剪；若原始文本样本的长度小于规定尺寸，将原始文本样本进行扩充(padding)，即填充预设字符(比如，字符S)。然后，在缩放处理后的原始文本样本前后加上起始字符(CLS)和结束字符(SEP)，并将添加预设字符后的原始文本样本进行上述的文本增强处理，得到第一文本样本和第二文本样本。

103：将第一文本样本输入到神经网络进行增强预测，得到第一预测结果。

示例性的，可以通过该神经网络对第一文本样本进行语义特征提取，得到该第一文本样本中的每个单词的语义特征向量；根据该第一文本样本中的预设单词(Mask)的语义特征向量进行增强预测，得到第一预测结果，即根据预设单词的语义特征向量进行增强预测，确定落入各个候选词的概率，将概率最大的候选词作为预设单词对应的预测词汇；然后，使用该预测词汇替换该第一文本样本中的预设单词，得到第一预测结果。

举例来说，如图2所示，原始文本样本为[my dog is cute]，对第一文本样本(即[my dog[Mask]cute])中的每个单词进行词嵌入处理，得到每个单词的词向量，即图2中的token embeddings；根据该第一文本样本中的每个单词在该第一文本样本中的位置进行位置编码，得到每个单词对应的位置向量，即图2中的position embeddings，示例性的，可以设定位置向量维度，然后，将每个单词对应的位置设置为1，其余位置设置为0，得到每个单词的位置向量，比如，设定的向量为100维，则单词my对应的位置向量为(0,1,0，……，0)；获取每个单词的片段信息，并根据每个单词的片段信息，确定每个单词对应的片段向量，即图2中的segment embeddings。本申请中以每个单词对应的片段向量的取值均为零为例进行说明；将第一文本样本中的每个单词对应的词向量、位置向量以及片段向量进行拼接，得到每个单词的拼接向量；对第一文本样本中的每个单词对应的拼接向量进行语义特征提取，得到每个单词对应的语义特征向量。其中，可以通过已有的transformer模型对第一文本样本中的每个单词对应的拼接向量进行语义特征提取，得到每个单词对应的语义特征向量。因此第一文本样本中的每个单词的语义特征向量可以通过公式(1)表示：

e′为第一文本样本中每个单词的拼接向量，

为每个单词的语义特征向量。

然后，基于每个单词的语义特征向量对预设单词进行增强预测，得到落入各个候选词的概率，其中，落入各个候选词的概率可以通过公式(2)表示：

其中，

表示第一文本样本中的预设单词落入各个候选词的概率，

为第一文本样本中的预设单词的语义特征向量。

104：将第二文本样本输入到神经网络进行增强预测，得到至少一个第二预测结果。

示例性的，与上述得到第一预测结果的方式类似，确定第二文本样本中的每个单词的语义特征向量；然后，根据第二文本样本中的预设单词的语义特征向量，确定第二文本样本中的预设单词落入各个候选词的概率；然后，如图3所示，按照概率从大到小的顺序从各个候选词中选出前K个候选词，K为大于或等于1的整数；将该K个候选词作为该至少一个第二预测结果。

105：根据至少一个第二预测结果对原始文本样本进行第一语义增强处理，得到第一语义特征向量。

示例性的，根据至少一个第二预测结果对原始文本样本进行单词级别增强(token-levelaugmentation)，得到该第一语义特征向量。

具体的，将该K个候选词对应的概率重新进行归一化，即重新进行softmax操作，得到该K个候选词中每个候选词对应的目标概率，并将该K个候选词中每个候选词对应的目标概率作为每个候选词的权重系数；

举例来说，如图3所示，分别得到单词A的语义特征向量为[1,0,0]，预设单词，即单词B的语义特征向量为[0,1,0]；然后，基于单词B的语义特征向量进行增强预测，得到落入各个候选词的概率分布为

若从各个候选词中选取前2个候选词，则可得到概率分布为P′_i,j＝[0.0,0.7,0.2]，重新归一化得到各个候选词的目标概率分布为

因此，可以得到前两个候选单词对应的权重系数分别为0.78和0.22。

进一步的，分别对该K个候选词中的每个候选词进行词嵌入处理，得到该K个候选词中每个候选词对应的词向量，根据该K个候选词中每个候选词的权重系数，对该K个候选词对应的词向量进行加权处理，得到目标词向量；然后，将该第二文本样本中的预设单词的词向量替换为该目标词向量，并对此时的第二文本样本中的每个单词对应的词向量进行语义特征提取，得到第一语义特征向量。应理解，此时预设单词对应的词向量不再是词嵌入得到的词向量，而是该目标词向量。同样，根据第二文本样本中的每个单词对应的词向量进行语义特征提取，得到第一语义特征向量也可以通过已有的transformer模型实现，不再叙述。

106：对原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对原始样本标签进行标签增强处理，得到第一样本标签。

示例性的，对原始文本样本和原始样本标签分别进行句子级别增强(sentence-levelaugmentation)，得到第二语义特征向量和第一样本标签。比如，对原始文本样本所属的批样本(batch)中的每个文本样本进行语义特征提取，得到每个文本样本的语义特征向量；从该batch中随机选择出第三文本样本，其中，该第三文本样本与该原始文本样本为该批样本中两个不同的文本样本；将原始文本样本的语义特征向量与第三文本样本的语义特征向量进行混合，以及将原始文本样本对应的原始样本标签与第五文本样本对应的样本标签进行混合，分别第二语义特征向量以及得到增强后的样本标签，即第一样本标签。

示例性的，增强后的语义特征向量可以通过公式(3)表示：

其中，

为第二语义特征向量，e_i为原始文本样本的语义特征向量，e_j为第三文本样本的语义特征向量。

示例性的，第一样本标签可以通过公式(4)表示：

其中，

为第一样本标签，y_i为原始样本标签，y_j为第三文本样本的样本标签。

其中，上述公式(3)和公式(4)中的λ为符合贝塔(beta)分布的一个随机数，即λ～Beta(α,α)。

107：根据原始文本样本、第一语义特征向量、第二语义特征向量、第一预测结果、原始样本标签以及第一样本标签，调整神经网络的网络参数，以对所述神经网络进行训练。

示例性的，根据原始文本样本和第一预测结果，得到第一损失，即将原始文本样本作为第一预测结果的监督标签，则可确定该原始文本样本与第一预测结果之间的交叉熵损失，得到第一损失。示例性的，第一损失可以通过公式(5)表示：

L_mlm＝CE(t_i，x_i) (5)；

L_mlm为第一损失，CE为交叉熵损失，t_i为第一预测结果，x_i为原始文本样本。

根据原始文本样本以及原始样本标签，得到第二损失，即根据原始文本样本的语义特征向量对原始文本样本进行文本分类，得到第一文本分类结果，根据该第一文本分类结果以及该原始样本标签，得到第二损失。因此，第二损失可以通公式(6)表示：

L₂＝CE(softmax(e_i),y_i) (6)；

其中，L₂为第二损失，e_i为原始文本样本的语义特征向量，softmax为分类操作。

根据第一语义特征向量进行文本分类，得到第二文本分类结果；根据该第二文本分类结果以及该原始样本标签，得到第三损失。因此，第三损失可以通过公式(7)表示：

其中，L₃为第三损失，

为第一语义特征向量。

根据第二语义特征向量进行文本分类，得到第三文本分类结果；根据该第三文本分类结果以及第一样本标签，得到第四损失。因此，第四损失可以通过公式(8)表示：

其中，L₄为第四损失，

为第二语义特征向量。

最后，根据第一损失、第二损失、第三损失以及第四损失调整神经网络的网络参数，直至神经网络收敛，得到完成训练的神经网络。比如，可以对该第一损失、第二损失、第三损失以及第四损失进行加权处理，得到目标损失；根据目标损失以及梯度下降法调整该神经网络的网络参数，直至神经网络收敛，得到完成训练的神经网络。其中，目标损失可以通过公式(9)表示：

L_final＝β₁*L_mlm+β₂*L₂+β₃*L₃+β₄*L₄ (9)；

其中，β₁、β₂、β₃、β₄为预设的权重系数，且β₁+β₂+β₃+β₄＝1。

可以看出，在本申请的实施方式中，将分类模型和数据增强模型构造为一个整体的模型，一起训练，从而可以让两个模型在训练过程中相互指导，可以增强出分类模型所需的样本，比如，数据增强模型增强的数据不是对分类有利的样本时，分类模型分类出的结果与真实结果差异比较大，因此，需要调整神经网络的网络参数，控制增强模型增强出与分类模型所需要的样本，也就相当于分类模型给了增强模型指引信息，从而最终使训练的神经网络可以增强出分类模型所需的样本，由于增强模型可以增强出分类模型所需的样本，因此，在样本稀缺的情况下，也能得到大量的样本对分类模型进行训练，提高模型的分类性能；而且，在进行分类过程中使用的是前K个候选词构造出的增强文本，而不是像现有技术中通过随机替换得到的增强文本，这K个候选词是通过预测得到的，所以，是与整个文本的语义最相近的K个候选词，也就是分类时最容易混淆的词，使用这样的词构造出的增强文本，对分类模型的训练更加具有针对性，进一步提高分类模型的分类性能。

在本申请的一个实施方式中，可对原始文本样本进行多次文本增强处理，得到与该原始文本样本对应的多个样本对，以使文本增强处理可以覆盖到该原始文本中更多的单词。如图3所示，可以对原始文本进行β次文本增强处理，其中，β为大于或等于2的整数，并将相邻两次增强处理得到的两个文本样本可以作为一个样本对。由于每次文本增强处理，原始文本样本中的每个单词都有一定的概率被替换，从而通过多次增强处理的过程中就可以替换不同的单词，从而提高文本增强的范围。

举例来说，如图4所示，原始文本样本为[the restaurant and service aregood]进行第一次文本增强处理，将单词restaurant和单词good都进行了遮挡，得到第一文本样本[the[Mask]and service are[Mask]]，对原始文本样本进行第二次文本增强处理，即对单词restaurant和单词service都进行了遮挡，得到第二文本样本[the[Mask]and[Mask]are good]。

因此，本申请中的第一文本样本和第二文本样本可以为该多个样本对中的任意一个样本对。应理解的是，若对原始文本样本进行了β次文本增强处理，则可以得到β个样本对，则可以获取β个样本对中的每个样本对对应的第一损失、第二损失、第三损失以及第四损失，最后，将β个样本对对应的第一损失求平均，得到最终的第一损失；同样，分别对β个样本对对应的第二损失求、第三损失、第四损失求平均，得到最终的第二损失、最终的第三损失以及最终的第四损失；最后，对最终的第一损失、最终的第二损失、最终的第三损失以及最终的第四损失进行加权处理，得到最终的目标损失。最后，使用最终的目标损失调整神经网络的网络参数。可以看出，对一个原始文本样本进行多次增强处理，可以提高对原始文本样本进行文本增强的全面性，也就是可以替换掉与文本分类相关的单词，得到与文本分类相关的增强后的样本，从而提高了文本增强的针对性以及文本分类的性能。

下面结合神经网络的网络结构叙述对该神经网络的训练过程。参阅图5，图5为本申请实施例提供的一种神经网络的结构示意图。如图5所示，神经网络包括transformer模型、增强模型和分类模型，其中，增强模型包括句子级别增强模型和单词级别增强模型。

如图5所示，将原始文本样本x进行文本增强处理，得到第一文本样本

和第二文本样本

然后，先按照上述的方式得到第一文本样本

中的每个单词的拼接向量e′；然后，将第一文本样本中的每个单词的拼接向量e′输入到transformer模型进行语义特征提取，得到每个单词对应的语义特征向量

其中，transformer模型为现有的transformer模型，不再叙述；然后，基于每个单词的语义特征向量

进行增强预测，确定落入各个候选词的概率，基于落入各个候选词的概率以及原始文本样本计算交叉损失，得到第一损失；

然后，同样，将第二文本样本

中的每个单词的拼接向量输入到transformer模型，得到第二文本样本中的每个单词的语义特征向量

然后，基于第二文本样本中的每个单词的语义特征向量

进行增强预测，确定落入各个候选词的概率；单词级别增强模型基于落入各个候选词的概率，对原始文本样本进行单词级别的增强，即选取前K个候选词，基于该K个候选词对原始文本样本进行语义增强，得到目标词向量

最后，使用目标词向量替换第二文本样本中的预设单词的词向量，并将替换词向量后的第二文本样本中的每个单词的词向量输入到transformer模型进行语义特征提取，得到第一语义特征向量

同样，将第一文本样本的每个单词的拼接向量输入到transformer模型进行语义特征提取，得到第一文本样本的语义特征向量e_i；然后，句子级别增强模型基于第一文本样本的语义特征向量e_i对原始文本样本进行第二语义增强处理，得到第二语义特征向量

进一步的，分类模型根据原始文本样本的语义特征向量进行文本分类，得到第一分类结果o_i；根据第一语义特征向量进行文本分类，得到第二分类结果

根据第三语义特征向量进行文本分类，得到第三分类结果

最后，根据第一文本分类结果o_i和原始样本标签，得到第二损失，根据第二文本分类结果

和原始样本标签，得到第三损失，根据第三文本分类结果

和第一样本标签，得到第四损失；

最后，对该第一损失、第二损失、第三损失以及第四损失进行加权处理，得到目标损失；根据该目标损失以及梯度下降法调整该神经网络的参数，以对该神经网络进行训练。

参阅图6，图6为本申请实施例提供的一种文本分类方法的流程示意图。该实施例中与图1所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤。该方法包括以下步骤：

601：获取原始文本样本以及与原始文本样本对应的原始样本标签。

602：对原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本。

603：将第一文本样本输入到神经网络进行增强预测，得到第一预测结果。

604：将第二文本样本输入到所述神经网络进行增强预测，得到至少一个第二预测结果。

605：根据至少一个第二预测结果对原始文本样本进行第一语义增强处理，得到第一语义特征向量。

606：对原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对原始样本标签进行标签增强处理，得到第一样本标签。

607：根据原始文本样本、第一语义特征向量、第二语义特征向量、第一预测结果、原始样本标签以及第一样本标签，调整神经网络的网络参数，以对所述神经网络进行训练。

608：获取待分类文本，通过完成训练的神经网络对待分类文本进行文本分类，得到第四文本分类结果。

示例性的，通过完成训练的神经网络对待分类文本进行语义特征提取，得到待分类文本的语义特征向量，根据该语义特征向量对待分类文本进行文本分类，得到第四文本分类结果。

可以看出，在本申请实施例中，由于完成训练的神经网络是通过具有针对性增强的样本训练得到的，从而该神经网络的分类性能比较好，因此，使用这样的神经网络进行文本分类，得到的第四文本分类结果的精度比较高。

参阅图7，图7为本申请实施例提供的一种文本增强方法的流程示意图。该实施例中与图1和图6所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤。该方法包括以下步骤：

701：获取原始文本样本以及与原始文本样本对应的原始样本标签。

702：对原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本。

703：将第一文本样本输入到神经网络进行增强预测，得到第一预测结果。

704：将第二文本样本输入到所述神经网络进行增强预测，得到至少一个第二预测结果。

705：根据至少一个第二预测结果对原始文本样本进行第一语义增强处理，得到第一语义特征向量。

706：对原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对原始样本标签进行标签增强处理，得到第一样本标签。

707：根据原始文本样本、第一语义特征向量、第二语义特征向量、第一预测结果、原始样本标签以及第一样本标签，调整神经网络的网络参数，以对所述神经网络进行训练。

708：获取第一待增强文本，通过完成训练的神经网络对待增强文本进行第一语义增强处理得到第二待增强文本和/或对待增强文本进行第二语义增强处理，得到第二增强文本。

示例性的，对第一待增强文本进行第一语义增强处理(即单词级别增强)，以及对第二待增强文本进行第二语义增强处理(即句子级别增强)可参见图1和图5示出的实现过程，不再叙述。

可以看出，在本申请实施例中，由于完成训练的神经网络在数据增强方面得到了文本分类的指引，从而增强出的数据精度比较高。因此，使用这样的神经网络进行文本增强，可以增强出文本分类模型所需的样本，也就是文本增强的精度比较高。

参阅图8，图8本申请实施例提供的一种神经网络训练装置的功能单元组成框图。神经网络训练装置800包括：获取单元801和处理单元802，其中：

获取单元801，用于获取原始文本样本以及与所述原始文本样本对应的原始样本标签；

处理单元802，用于对所述原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本；将所述第一文本样本输入到神经网络进行增强预测，得到第一预测结果；将所述第二文本样本输入到所述神经网络进行增强预测，得到至少一个第二预测结果；根据所述至少一个第二预测结果对所述原始文本样本进行第一语义增强处理，得到第一语义特征向量；对所述原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对所述原始样本标签进行标签增强处理，得到第一样本标签；根据所述原始文本样本、所述第一语义特征向量、所述第二语义特征向量、所述第一预测结果、所述原始样本标签以及所述第一样本标签，调整所述神经网络的网络参数，以对所述神经网络进行训练。

在一些可能的实施方式中，在根据所述原始文本样本、所述第一语义特征向量、所述第二语义特征向量、所述第一预测结果、所述原始样本标签以及所述第一样本标签，调整所述神经网络的网络参数，以对所述神经网络进行训练方面，处理单元802，具体用于：

根据所述原始文本样本和所述第一预测结果，得到第一损失；

对所述原始文本样本进行语义特征提取，得到所述原始文本样本的语义特征向量，根据所述原始文本样本的语义特征向量进行文本分类，得到第一文本分类结果，并根据所述第一文本分类结果和所述原始样本标签，得到第二损失；

根据所述第一语义特征向量进行文本分类，得到第二文本分类结果，并根据所述第二文本分类结果和所述原始样本标签，得到第三损失；

根据所述第二语义特征向量进行文本分类，得到第三文本分类结果，并根据所述第三文本分类结果和所述第一样本标签，得到第四损失；

对所述第一损失、所述第二损失、所述第三损失以及所述第四损失进行加权，得到目标损失；

根据所述目标损失，调整所述神经网络的网络参数。

在一些可能的实施方式中，在对所述原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本方面，处理单元802，具体用于：

获取预设替换概率；

根据所述预设替换概率，将所述原始文本样本中的单词替换为预设单词，得到第一文本样本和第二文本样本。

在一些可能的实施方式中，在将所述第一文本样本输入到神经网络进行增强预测，得到第一预测结果方面，处理单元802，具体用于：

对所述第一文本样本中的每个单词进行词嵌入处理，得到所述第一文本样本中的每个单词对应的词向量；

根据所述第一文本样本中的每个单词在所述第一文本样本中的位置进行位置编码，得到所述第一文本样本中的每个单词对应的位置向量；

根据所述第一文本样本中的每个单词所属的片段信息，得到所述第一文本样本中的每个单词对应的片段向量；

将所述第一文本样本中的每个单词对应的词向量、位置向量以及片段向量进行拼接，得到所述第一文本样本中的每个单词的拼接向量；

对所述第一文本样本中的每个单词的拼接向量进行语义特征提取，得到所述第一文本样本中的每个单词对应的语义特征向量；

根据所述第一文本样本中的预设单词对应的语义特征向量，确定落入各个候选单词的概率；

使用最大概率对应的候选单词替换所述第一文本样本中的预设单词，得到第一预测结果。

在一些可能的实施方式中，在将所述第二文本样本输入到所述神经网络进行增强预测，得到至少一个第二预测结果方面，处理单元，具体用于：

对所述第二文本样本中的每个单词进行词嵌入处理，得到所述第二文本样本中的每个单词对应的词向量；

根据所述第二文本样本中的每个单词在所述第一文本样本中的位置进行位置编码，得到所述第二文本样本中的每个单词对应的位置向量；

根据所述第二文本样本中的每个单词所属的片段信息，得到所述第二文本样本中的每个单词对应的片段向量；

将所述第二文本样本中的每个单词对应的词向量、位置向量以及片段向量进行拼接，得到所述第二文本样本中的每个单词对应的拼接向量；

对所述第二文本样本中的每个单词的拼接向量进行语义特征提取，得到所述第二文本样本中的每个单词对应的语义特征向量；

根据所述第二文本样本中的预设单词对应的语义特征向量，确定落入各个候选单词的概率；

按照概率从大到小的顺序从所述各个候选词中选取K候选词，K为大于或等于1的整数；

将所述K个候选词作为对所述第二文本样本进行增强预测得到的至少一个第二预测结果。

在一些可能的实施方式中，在根据所述至少一个第二预测结果对所述原始文本样本进行第一语义增强处理，得到第一语义特征向量方面，处理单元802，具体用于：

将所述K个候选词中的每个候选词对应的概率进行归一化，得到所述K个候选词中的每个候选词对应的目标概率；

将所述K个候选词中的每个候选词对应的目标概率作为所述K个候选词中的每个候选词对应的权重系数；

对所述K个候选词中的每个候选词进行词嵌入处理，得到所述K个候选词中的每个候选词的词向量；

根据所述K个候选词中的每个候选词对应的权重系数，对所述K个候选词对应的词向量进行加权处理，得到目标词向量；

将所述目标词向量作为所述第二文本样本中的预设单词对应的词向量，并对所述第二文本样本中的每个单词对应的词向量进行语义特征提取，得到第一语义特征向量。

在一些可能的实施方式中，在对所述原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对所述原始样本标签进行标签增强处理，得到第一样本标签方面，处理单元802，具体用于：

对所述原始文本样本所属的批样本中的每个文本样本进行语义特征提取，得到所述每个文本样本的语义特征向量；

对所述原始文本样本对应的语义特征向量与第三文本样本对应的语义特征向量进行混合，得到第二语义特征向量，其中，所述第三文本样本为所述批样本中不同于所述原始文本样本中的任意一个文本样本；

对所述原始样本标签与所述第三文本样本对应的样本标签进行混合，得到第一样本标签。

参阅图9，图9为本申请实施例提供的一种电子设备的结构示意图。如图9所示，电子设备900包括收发器901、处理器902和存储器903。它们之间通过总线904连接。存储器903用于存储计算机程序和数据，并可以将存储器903存储的数据传输给处理器902。

处理器902用于读取存储器903中的计算机程序以执行上述处理单元802所执行的操作，不再叙述。

应理解，本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)或穿戴式设备等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种神经网络训练方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种神经网络训练方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种神经网络训练方法，其特征在于，包括

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始文本样本、所述第一语义特征向量、所述第二语义特征向量、所述第一预测结果、所述原始样本标签以及所述第一样本标签，调整所述神经网络的网络参数，以对所述神经网络进行训练，包括：

根据所述目标损失，调整所述神经网络的网络参数。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述原始文本样本进行文本增强处理，得到第一文本样本和第二文本样本，包括：

获取预设替换概率；

4.根据权利要求3所述的方法，其特征在于，所述将所述第一文本样本输入到神经网络进行增强预测，得到第一预测结果，包括：

5.根据权利要求3或4所述的方法，其特征在于，所述将所述第二文本样本输入到所述神经网络进行增强预测，得到至少一个第二预测结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述至少一个第二预测结果对所述原始文本样本进行第一语义增强处理，得到第一语义特征向量，包括：

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述对所述原始文本样本进行第二语义增强处理，得到第二语义特征向量，以及对所述原始样本标签进行标签增强处理，得到第一样本标签，包括：

8.一种神经网络训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。