CN115511074A

CN115511074A - 一种模型训练方法、装置及设备

Info

Publication number: CN115511074A
Application number: CN202211076663.2A
Authority: CN
Inventors: 李滨君
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-23

Abstract

本申请适用于机器学习技术领域，提供了模型训练方法、装置及设备，方法包括：获取参与训练的模型、训练数据集和训练数据集对应的第一任务生效信息；根据目标训练数据集训练模型，得到目标训练数据集在任务上产生的损失；根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，更新模型的参数；若未满足预设的当轮训练终止条件，重新选择在下一轮使用的目标训练数据集，迭代训练模型；若已满足预设的当轮训练终止条件但未满足预设的总训练终止条件，获取模型差异数据，根据人工标注后的模型差异数据，重新进行模型的训练。上述方法，能够有效避免冗余标注，降低数据标注成本，并提高多任务模式下的模型训练效果。

Description

一种模型训练方法、装置及设备

技术领域

本申请属于机器学习技术领域，尤其涉及一种模型训练法、装置及设备。

背景技术

现有的模型训练方式通常遵循数据集迭代(包括数据收集-数据标注)至模型迭代(包括模型优化-模型训练-模型评估)的循环流程进行，即，在完成一定的数据收集、数据标注后，基于已标注数据对模型训练优化，在进行一定次数的优化后，可以依据需要对数据集进行迭代，从而进一步提高模型性能。

多任务模式下的模型训练会提取多种任务间的共有特征，基于提取的特征进行不同的任务推断，从而使得训练后的模型能够完成若干个种任务，例如：既可以完成序列标注任务，又可以完成分类任务。

多任务模式下的模型训练是需要大量数据支撑的，然而，目前带有多种标签的开源数据较少，也就是说，在某个任务上的已标注数据不一定具有在其他任务上的标注，因此无法保证模型的训练效果。为了解决上述问题，可以采用伪标注和人工标注的方法进行数据标注，但是，一方面伪标注是存在一定误差的，另一方面人工标注的标注成本过高，再者，也存在为保证数据量而产生冗余标注的情况。故，现有的解决方式是无法提高多任务模式下的模型训练效果的，并且也无法有效降低数据标注成本。

发明内容

本申请实施例提供了一种模型训练方法、装置及设备，可以解决上述问题。

第一方面，本申请实施例提供了一种模型训练方法，包括：获取参与训练的模型、若干个训练数据集以及各个训练数据集对应的第一任务生效信息；其中，参与训练的模型中存在至少一个相同的任务，各个训练数据集中包含已标注数据和/或伪标注数据，训练数据集对应的第一任务生效信息用于判断在模型训练中训练数据集在任务上产生的损失是否反向传播更新模型的参数；选择在当轮模型训练中使用的目标训练数据集，并根据目标训练数据集中的数据训练模型，得到目标训练数据集在任务上产生的损失；根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数；若未满足预设的当轮训练终止条件，重新选择在下一轮模型训练中使用的目标训练数据集，迭代训练模型；若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件；若否，获取模型差异数据，根据人工标注后的模型差异数据，重新进行模型的训练；其中，模型对模型差异数据的推断结果不同；若是，停止进行模型的训练。

进一步地，该方法还包括：获取目标训练数据集对应的第二任务生效信息；其中，目标训练数据集对应的第二任务生效信息用于判断在当轮模型训练中目标训练数据集在任务上产生的损失是否反向传播更新模型的参数；根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数，包括：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的第二任务生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

进一步地，至少一个目标训练数据集对应的第二任务生效信息指示在当轮模型训练中目标训练数据集在任务上产生的损失用于反向传播更新模型的参数。

进一步地，该方法还包括：获取训练数据集对应的模型生效信息；其中，训练数据集对应的模型生效信息用于判断在模型训练中训练数据集产生的损失是否反向传播更新模型的参数；根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数，包括步骤：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的模型生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

进一步地，获取参与训练的模型、若干个训练数据集以及各个训练数据集对应的第一任务生效信息之前，包括：获取初始数据集和模型中存在的至少一个相同的任务；若初始数据集中未包含任务对应的标注，向初始数据集中添加与任务对应的伪标注，得到训练数据集。

进一步地，第一任务生效信息分为生效、不生效和随机生效；随机生效是指在模型训练中训练数据集在任务上产生的损失以随机概率反向传播更新模型的参数。

进一步地，根据目标训练数据集中的数据训练模型，得到目标训练数据集在任务上产生的损失，包括：从目标训练数据集中选取预设数量的目标数据；根据目标数据训练模型，得到目标训练数据集在任务上产生的损失。

进一步地，若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件，包括步骤：若已满足预设的当轮训练终止条件，获取迭代训练次数、模型的推断准确度和/或模型的推断差异度；判断迭代训练次数是否达到预设的第一模型迭代次数、模型的推断准确度是否达到预设的第一推断准确度和/或模型的推断差异度是否达到预设的第一推断差异度。

第二方面，本申请实施例提供了一种模型训练装置，包括：

获取单元，用于获取参与训练的模型、若干个训练数据集以及各个训练数据集对应的第一任务生效信息；其中，参与训练的模型中存在至少一个相同的任务，各个训练数据集中包含已标注数据和/或伪标注数据，训练数据集对应的第一任务生效信息用于判断在模型训练中训练数据集在任务上产生的损失是否反向传播更新模型的参数；

训练单元，用于选择在当轮模型训练中使用的目标训练数据集，并根据目标训练数据集中的数据训练模型，得到目标训练数据集在任务上产生的损失；

更新单元，用于根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数；

第一判断单元，用于若未满足预设的当轮训练终止条件，重新选择在下一轮模型训练中使用的目标训练数据集，迭代训练模型；

第二判断单元，用于若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件；若否，获取模型差异数据，根据人工标注后的模型差异数据，重新进行模型的训练；其中，模型对模型差异数据的推断结果不同；若是，停止进行模型的训练。

进一步地，该模型训练装置还包括：第一获取单元，用于获取目标训练数据集对应的第二任务生效信息；其中，目标训练数据集对应的第二任务生效信息用于判断在当轮模型训练中目标训练数据集在任务上产生的损失是否反向传播更新模型的参数；更新单元，具体用于：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的第二任务生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

进一步地，第一获取单元中至少一个目标训练数据集对应的第二任务生效信息指示在当轮模型训练中目标训练数据集在任务上产生的损失用于反向传播更新模型的参数。

进一步地，该模型训练装置还包括：第二获取单元，用于获取训练数据集对应的模型生效信息；其中，训练数据集对应的模型生效信息用于判断在模型训练中训练数据集产生的损失是否反向传播更新模型的参数；更新单元，具体用于：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的模型生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

进一步地，该模型训练装置还包括：第三获取单元，用于获取初始数据集和模型中存在的至少一个相同的任务；标注单元，用于若初始数据集中未包含任务对应的标注，向初始数据集中添加与任务对应的伪标注，得到训练数据集。

进一步地，获取单元中第一任务生效信息分为生效、不生效和随机生效；随机生效是指在模型训练中训练数据集在任务上产生的损失以随机概率反向传播更新模型的参数。

进一步地，训练单元具体用于：从目标训练数据集中选取预设数量的目标数据；根据目标数据训练模型，得到目标训练数据集在任务上产生的损失。

进一步地，第二判断单元具体用于：若已满足预设的当轮训练终止条件，获取迭代训练次数、模型的推断准确度和/或模型的推断差异度；判断迭代训练次数是否达到预设的第一模型迭代次数、模型的推断准确度是否达到预设的第一推断准确度和/或模型的推断差异度是否达到预设的第一推断差异度。

第三方面，本申请实施例提供了一种模型训练设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的方法。

本申请实施例获取参与训练的模型、若干个训练数据集以及各个训练数据集对应的第一任务生效信息；其中，参与训练的模型中存在至少一个相同的任务，各个训练数据集中包含已标注数据和/或伪标注数据，训练数据集对应的第一任务生效信息用于判断在模型训练中训练数据集在任务上产生的损失是否反向传播更新模型的参数；选择在当轮模型训练中使用的目标训练数据集，并根据目标训练数据集中的数据训练模型，得到目标训练数据集在任务上产生的损失；根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数；若未满足预设的当轮训练终止条件，重新选择在下一轮模型训练中使用的目标训练数据集，迭代训练模型；若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件；若否，获取模型差异数据，根据人工标注后的模型差异数据，重新进行模型的训练；其中，模型对模型差异数据的推断结果不同；若是，停止进行模型的训练。上述方法，将具有至少一个相同任务的模型一同进行训练，并配置不同训练数据集在任务上是否生效，从而控制训练数据集对模型内的可训练参数是否产生影响，训练后的模型能够提取到不同的知识，进而利用模型差异可排查出对训练有利的数据，仅对这部分数据进行人工标注，这样能够有效避免冗余标注，降低数据标注成本，并提高多任务模式下的模型训练效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请第一实施例提供的一种模型训练方法的示意流程图；

图2是本申请第一实施例提供的一种模型训练方法中S102的示意流程图；

图3是本申请第一实施例提供的一种模型训练方法的另一示意流程图；

图4是本申请第一实施例提供的一种模型训练方法的又一示意流程图；

图5是本申请第一实施例提供的一种模型训练方法中S105的示意流程图；

图6是本申请第二实施例提供的模型训练装置的示意图；

图7是本申请第三实施例提供的模型训练设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

请参见图1，图1是本申请第一实施例提供的一种模型训练方法的示意流程图。本实施例中一种模型训练方法的执行主体为具有模型训练功能的设备，该设备可以为个人计算机、服务器以及手机等，该设备也可以为控制芯片、微控制器等。如图1所示的模型训练方法可以包括：

S101：获取参与训练的模型、若干个训练数据集以及各个训练数据集对应的第一任务生效信息；其中，参与训练的模型中存在至少一个相同的任务，各个训练数据集中包含已标注数据和/或伪标注数据，训练数据集对应的第一任务生效信息用于判断在模型训练中训练数据集在任务上产生的损失是否反向传播更新模型的参数。

在对步骤S101进行说明之前，先对本申请的发明思想进行简要概述。在本申请是基于主动学习的方式，识别出无法在不同模型中取得类似表征的样本。这种样本一般有但不限于两种可能的来源，其一是样本数量不足以完善支撑类别边界划分，其二是样本对应的特征空间没有覆盖到标注信息。

对于第一种情况举例：如在对动物图像进行分类时，假设狗的图像包含白色狗的图像和黑色狗的图像，猫的图像只包含白色猫的图像，那么模型在训练后就会认为黑色的为狗的图像，此时就会出现黑色的猫被误分类，那么，只有引入黑色猫的图像一同进行训练才能够更准确地对动物图像进行分类。此种情况即是样本数量不足以完善支撑类别边界划分。

对于第二种情况举例：如在对动物图像进行分类时，当训练数据集中只有猫的图像和狗的图像，那么，其他动物如花豹的分类结果就无法确定，会受随机参数影响较大，此种情况即使样本对应的特征空间没有覆盖到标注信息。

撒行数无法在不同模型中取得类似表征的样本，在本申请实施例中称为模型差异数据，由于模型差异数据非常具有代表性，加入训练后能对模型产生较大的正向影响，查找出模型差异数据，针对模型差异数据进行人工标注，进而随人工标注后而继续进行模型的迭代，直至达到终止条件，这将极有利于提高模型训练速度，降低数据标注成本，减少冗余标注的情况。

如前述，多任务模式下的模型训练是需要大量数据支撑的，然而，目前带有多种标签的开源数据较少，也就是说，在某个任务上的已标注数据不一定具有在其他任务上的标注，因此导致无法保证模型的训练效果。那么，此时就需要对数据进行伪标注。

具体地，在执行步骤S101之前，设备会获取初始数据集和模型中存在的至少一个相同任务，若初始数据集中未包含任务对应的标注，向初始数据集中添加与任务对应的伪标注，得到训练数据集。

具体地，数据分为三种：带有所有任务标注的，带有部分任务标注的以及不带任务标注的，针对不带任务标注和带有部分任务标注的数据将添加与任务对应的伪标注。

其中，可以采用现有的伪标注方法向初始数据集中添加与任务对应的伪标注，在此不进行详细限定。

例如：在包含情感分类任务和文章领域分类人物的模型中，可设置文章领域为“法律”的数据对应的情感分类为“无倾向”，从而得到伪标注数据。

在步骤S101中，设备获取参与训练的模型、若干个训练数据集以及各个训练数据集对应的第一任务生效信息。

其中，参与训练的模型中存在至少一个相同的任务。可以理解为，参与的模型中的任务需要存在交集，最后可以输出相同任务的结果。例如：两个模型一个用于做分类和序列标注，另一个用于做分类，那么，就可以对这两个模型训练分类任务。

需要说明的是，参与训练的模型的结构可以是同构或已构，在此不进行限定，但是模型的训练或模型的结构上至少有一个存在不同，从而才能使得模型中的可训练参数不同，利用这些不同识别到训练数据集中的模型差异数据。

还需要说明的是，假设参与训练的模型是2个，模型1的任务包括A、B和C，模型2的任务包括B，因此，此次训练针对的就是公有的任务B。但是，若A任务和/或C任务若对特征提取有益，那么，也可以在模型2中增加任务层，构造A任务和/或C任务，作为共有的任务一同进行训练。

各个训练数据集中包含已标注数据和/或伪标注数据。关于已标注数据和/或伪标注数据已在前述进行说明。

训练数据集对应的第一任务生效信息用于判断在模型训练中训练数据集在任务上产生的损失是否反向传播更新模型的参数。

举例理解：假设有数据集P、Q、K，数据集P、Q和K中，数据集P和数据集Q对上述任务B生效，数据集K对上述任务B不生效，那么，数据集K在任务B上产生的损失不会用于更新模型的参数。

由于本申请实施例提供的方法可以对多种任务进行同时训练，因此，通过数据集的生效信息，能够有效降低训练设置的修改成本。

在一个可选的实施方式中，第一任务生效信息分为生效和不生效。

在另一个可选的实施方式中，第一任务生效信息分为生效、不生效和随机生效。其中，随机生效是指在模型训练中训练数据集在任务上产生的损失以随机概率反向传播更新模型的参数。

S102：选择在当轮模型训练中使用的目标训练数据集，并根据目标训练数据集中的数据训练模型，得到目标训练数据集在任务上产生的损失。

在一轮模型训练中，会从训练数据集中选择一部分数据集作为目标训练数据集。

设备根据目标训练数据集中的数据训练模型，得到目标训练数据集在任务上产生的损失。关于此处模型训练过程中细节不进行限定，基于模型结构的不同而存在多种可能性，可以确认的是，经过当轮模型训练能够计算出在任务上产生的损失，即，根据当前模型输出结果、数据的标注和预设的损失函数计算出损失。

在一个可选的实施方式中，请参阅图2，图2是本申请第一实施例提供的一种模型训练方法中S102的示意流程图，S102包括：

S1021：从目标训练数据集中选取预设数量的目标数据。

S1022：根据目标数据训练模型，得到目标训练数据集在任务上产生的损失。

若将训练数据集理解的为迭代器，那么，选择在当轮模型训练中使用的目标训练数据集即是切换迭代器，而从目标训练数据集中选取预设数量的目标数据即是迭代器输出预设数量的目标数据。

在本实施例中，仅适用目标数据训练模型，得到目标训练数据集在任务上产生的损失，从而能够加快模型训练速度。

S103：根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

设备根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

也就是说，在模型训练中目标训练数据集在任务上生效，那么，目标训练数据集在任务上产生的损失反向传播更新模型的参数。

除上述第一任务生效信息外，还配置有第二任务生效信息，下面对此进行说明，请参阅图3，图3是本申请第一实施例提供的一种模型训练方法的另一示意流程图，该方法还包括：

S106：获取目标训练数据集对应的第二任务生效信息；其中，目标训练数据集对应的第二任务生效信息用于判断在当轮模型训练中目标训练数据集在任务上产生的损失是否反向传播更新模型的参数。

设备获取目标训练数据集对应的第二任务生效信息。

目标训练数据集对应的第二任务生效信息用于判断在当轮模型训练中目标训练数据集在任务上产生的损失是否反向传播更新模型的参数。

配置第二任务生效信息的作用在于：(1)针对不同任务的训练，其收敛的速度是不一致的，未避免过拟合的情况，可以针对收敛过快的任务，通过目标训练数据集对应的第二任务生效信息，暂停其在该任务上产生的损失用于反向传播更新模型参数，例如：可以每隔几轮训练生效一次。(2)一些任务需要依赖于其他任务的结果进行判定是否生效，例如：识别身份首先要判断目标是不是活体等预先限制，因此，可以通过配置第二任务生效信息控制其在每轮模型训练中是否生效。

需要说明的是，至少一个目标训练数据集对应的第二任务生效信息指示在当轮模型训练中目标训练数据集在任务上产生的损失用于反向传播更新模型的参数。

也就是说，至少有一个目标训练数据集在当轮模型训练中，在任务上产生的损失会用于反向传播更新模型的参数，从而以保证模型训练迭代的正常进行。

在步骤S106的基础上，S103包括：

S1031：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的第二任务生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

设备根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的第二任务生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

具体地，设备需在目标训练数据集对应的第一任务生效信息为生效、目标训练数据集对应的第二任务生效信息为生效的情况下，才会使用目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

在本实施例中，通过配置第二任务生效信息，能够高效地控制模型训练过程，防止过拟合现象的发生，解决任务依赖的问题。

除上述第一任务生效信息、第二任务生效信息外，还可以配置有模型生效信息，下面对此进行说明，请参阅图4，图4是本申请第一实施例提供的一种模型训练方法的又一示意流程图，该方法还包括：

S107：获取训练数据集对应的模型生效信息；其中，训练数据集对应的模型生效信息用于判断在模型训练中训练数据集产生的损失是否反向传播更新模型的参数。

设备获取训练数据集对应的模型生效信息。

训练数据集对应的模型生效信息用于判断在模型训练中训练数据集产生的损失是否反向传播更新模型的参数。

配置模型生效信息的作用在于：可以依据该模型生效信息控制各训练数据集在不同模型上是否生效，仅在生效时才会利用训练数据集产生的损失反向传播更新模型的参数。前述提及，模型的训练或模型的结构上至少有一个存在不同，从而才能使得模型中的可训练参数不同，那么，通过配置模型生效信息，就可以从控制训练数据集的角度，使得模型的训练存在不同，从而使得模型中的可训练参数不同。

在步骤S107的基础上，S103包括：

S1032：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的模型生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

设备根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的模型生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

其中，设备从训练数据集对应的模型生效信息即可获取到目标训练数据集对应的模型生效信息。

具体地，设备需在目标训练数据集对应的第一任务生效信息为生效、目标训练数据集对应的模型生效信息为生效的情况下，才会使用目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

在本实施例中，通过配置模型生效信息，可以从控制训练数据集的角度，使得模型的训练存在不同，高效地实现训练操控。

在一个可选的实施方式中，同时配置第一任务生效信息、第二任务生效信息和模型生效信息。

设备根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的第二任务生效信息、目标训练数据集对应的模型生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

具体地，设备需在目标训练数据集对应的第一任务生效信息为生效、目标训练数据集对应的第一任务生效信息为生效以及目标训练数据集对应的模型生效信息为生效的情况下，才会使用目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

S104：若未满足预设的当轮训练终止条件，重新选择在下一轮模型训练中使用的目标训练数据集，迭代训练模型。

其中，预设的当轮训练终止条件可以为迭代训练次数不小于预设的第二模型迭代次数、模型的推断准确度不小于预设的第二推断准确度和/或模型的推断差异度小于预设的第二推断差异度。

推断差异度是指模型差异数据占伪标注数据的比例。其中，将模型差异数据输入不同模型后，所得到的推断结果不同。

S105：若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件；若否，获取模型差异数据，根据人工标注后的模型差异数据，重新进行模型的训练；其中，模型对模型差异数据的推断结果不同；若是，停止进行模型的训练。

设备在满足预设的当轮训练终止条件，会继续判断是否满足预设的总训练终止条件。

若否，获取模型差异数据，根据人工标注后的模型差异数据，重新进行模型的训练。也就是说，针对模型差异数据会进行人工标注，以保证此部分模型差异数据的标注准确性。

若是，停止进行模型的训练。

其中，模型对模型差异数据的推断结果不同，简单理解即为，模型差异数据在输入不同模型后所得到的推断结果不同。

在一个可选的实施方式中，请参阅图5，图5是本申请第一实施例提供的一种模型训练方法中S105的示意流程图，S105包括：

S1051：若已满足预设的当轮训练终止条件，获取迭代训练次数、模型的推断准确度和/或模型的推断差异度。

S1052：判断迭代训练次数是否达到预设的第一模型迭代次数、模型的推断准确度是否达到预设的第一推断准确度和/或模型的推断差异度是否达到预设的第一推断差异度。

在本实施例中，预设的第一模型迭代次数、预设的第一推断准确度以及预设的第一推断差异度一般情况下与上述预设的第二模型迭代次数、预设的第二以及预设的第二推断差异度的数值不同，但是在一些可选的实施方式下，也存在数值部分相同的可能性。

另外，需要说的是，预设的第一模型迭代次数可以是指模型迭代训练的累加轮数(即，设备执行目标训练数据集选择、计算损失、更新模型参数以及判断是否满足预设的当轮训练终止条件这一流程的累加轮数)，也可以是指整体的模型迭代次数(即，在不满足总训练终止条件时，获取模型差异数据、对模型差异数据进行人工标注，并重新进行模型训练这一流程的次数)。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参见图6，图6是本申请第二实施例提供的模型训练装置的示意图。包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图6，模型训练装置6包括：

获取单元61，用于获取参与训练的模型、若干个训练数据集以及各个训练数据集对应的第一任务生效信息；其中，参与训练的模型中存在至少一个相同的任务，各个训练数据集中包含已标注数据和/或伪标注数据，训练数据集对应的第一任务生效信息用于判断在模型训练中训练数据集在任务上产生的损失是否反向传播更新模型的参数；

训练单元62，用于选择在当轮模型训练中使用的目标训练数据集，并根据目标训练数据集中的数据训练模型，得到目标训练数据集在任务上产生的损失；

更新单元63，用于根据目标训练数据集对应的第一任务生效信息和目标训练数据集在任务上产生的损失，反向传播更新模型的参数；

第一判断单元64，用于若未满足预设的当轮训练终止条件，重新选择在下一轮模型训练中使用的目标训练数据集，迭代训练模型；

第二判断单元65，用于若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件；若否，获取模型差异数据，根据人工标注后的模型差异数据，重新进行模型的训练；其中，模型对模型差异数据的推断结果不同；若是，停止进行模型的训练。

进一步地，该模型训练装置6还包括：第一获取单元，用于获取目标训练数据集对应的第二任务生效信息；其中，目标训练数据集对应的第二任务生效信息用于判断在当轮模型训练中目标训练数据集在任务上产生的损失是否反向传播更新模型的参数；更新单元63，具体用于：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的第二任务生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

进一步地，该模型训练装置6还包括：第二获取单元，用于获取训练数据集对应的模型生效信息；其中，训练数据集对应的模型生效信息用于判断在模型训练中训练数据集产生的损失是否反向传播更新模型的参数；更新单元63，具体用于：根据目标训练数据集对应的第一任务生效信息、目标训练数据集对应的模型生效信息以及目标训练数据集在任务上产生的损失，反向传播更新模型的参数。

进一步地，该模型训练装置6还包括：第三获取单元，用于获取初始数据集和模型中存在的至少一个相同的任务；标注单元，用于若初始数据集中未包含任务对应的标注，向初始数据集中添加与任务对应的伪标注，得到训练数据集。

进一步地，训练单元62具体用于：从目标训练数据集中选取预设数量的目标数据；根据目标数据训练模型，得到目标训练数据集在任务上产生的损失。

进一步地，第二判断单元65具体用于：若已满足预设的当轮训练终止条件，获取迭代训练次数、模型的推断准确度和/或模型的推断差异度；判断迭代训练次数是否达到预设的第一模型迭代次数、模型的推断准确度是否达到预设的第一推断准确度和/或模型的推断差异度是否达到预设的第一推断差异度。

请参见图7，图7是本申请第三实施例提供的模型训练设备的示意图。如图7所示，该实施例的模型训练设备7包括：处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72，例如模型训练程序。所述处理器70执行所述计算机程序72时实现上述各个模型训练方法实施例中的步骤，例如图1所示的步骤S101至S105。或者，所述处理器70执行所述计算机程序72时实现上述各装置实施例中各模块/单元的功能，例如图6所示获取单元61至第二判断单元65的功能。

示例性的，所述计算机程序72可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述处理器70执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序72在所述模型训练设备7中的执行过程。例如，所述计算机程序72可以被分割成获取单元、训练单元、更新单元、第一判断单元以及第二判断单元，各单元具体功能如下：

所述模型训练设备可包括，但不仅限于，处理器70、存储器71。本领域技术人员可以理解，图7仅仅是模型训练设备7的示例，并不构成对模型训练设备7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述模型训练设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器70可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器71可以是所述模型训练设备7的内部存储单元，例如模型训练设备7的硬盘或内存。所述存储器71也可以是所述模型训练设备7的外部存储设备，例如所述模型训练设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述模型训练设备7还可以既包括所述模型训练设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述模型训练设备所需的其他程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

本申请实施例还提供了一种网络设备，该网络设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取参与训练的模型、若干个训练数据集以及各个所述训练数据集对应的第一任务生效信息；其中，参与训练的所述模型中存在至少一个相同的任务，各个所述训练数据集中包含已标注数据和/或伪标注数据，所述训练数据集对应的第一任务生效信息用于判断在模型训练中所述训练数据集在所述任务上产生的损失是否反向传播更新所述模型的参数；

选择在当轮模型训练中使用的目标训练数据集，并根据所述目标训练数据集中的数据训练所述模型，得到所述目标训练数据集在所述任务上产生的损失；

根据所述目标训练数据集对应的第一任务生效信息和所述目标训练数据集在所述任务上产生的损失，反向传播更新所述模型的参数；

若未满足预设的当轮训练终止条件，重新选择在下一轮模型训练中使用的目标训练数据集，迭代训练所述模型；

若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件；若否，获取模型差异数据，根据人工标注后的所述模型差异数据，重新进行所述模型的训练；其中，所述模型对所述模型差异数据的推断结果不同；若是，停止进行所述模型的训练。

2.如权利要求1所述的模型训练方法，其特征在于，还包括：

获取所述目标训练数据集对应的第二任务生效信息；其中，所述目标训练数据集对应的第二任务生效信息用于判断在当轮模型训练中所述目标训练数据集在所述任务上产生的损失是否反向传播更新所述模型的参数；

所述根据所述目标训练数据集对应的第一任务生效信息和所述目标训练数据集在所述任务上产生的损失，反向传播更新所述模型的参数，包括：

根据所述目标训练数据集对应的第一任务生效信息、所述目标训练数据集对应的第二任务生效信息以及所述目标训练数据集在所述任务上产生的损失，反向传播更新所述模型的参数。

3.如权利要求2所述的模型训练方法，其特征在于：至少一个所述目标训练数据集对应的第二任务生效信息指示在当轮模型训练中所述目标训练数据集在所述任务上产生的损失用于反向传播更新所述模型的参数。

4.如权利要求1所述的模型训练方法，其特征在于，还包括：

获取所述训练数据集对应的模型生效信息；其中，所述训练数据集对应的模型生效信息用于判断在模型训练中所述训练数据集产生的损失是否反向传播更新所述模型的参数；

所述根据所述目标训练数据集对应的第一任务生效信息和所述目标训练数据集在所述任务上产生的损失，反向传播更新所述模型的参数，包括步骤：

根据所述目标训练数据集对应的第一任务生效信息、所述目标训练数据集对应的模型生效信息以及所述目标训练数据集在所述任务上产生的损失，反向传播更新所述模型的参数。

5.如权利要求1至4任意一项所述的模型训练方法，其特征在于，所述获取参与训练的模型、若干个训练数据集以及各个所述训练数据集对应的第一任务生效信息之前，包括：

获取初始数据集和所述模型中存在的至少一个相同的任务；

若所述初始数据集中未包含所述任务对应的标注，向所述初始数据集中添加与所述任务对应的伪标注，得到所述训练数据集。

6.如权利要求1至4任意一项所述的模型训练方法，其特征在于：所述第一任务生效信息分为生效、不生效和随机生效；所述随机生效是指在模型训练中所述训练数据集在所述任务上产生的损失以随机概率反向传播更新所述模型的参数。

7.如权利要求1至4任意一项所述的模型训练方法，其特征在于，所述根据所述目标训练数据集中的数据训练所述模型，得到所述目标训练数据集在所述任务上产生的损失，包括：

从所述目标训练数据集中选取预设数量的目标数据；

根据所述目标数据训练所述模型，得到所述目标训练数据集在所述任务上产生的损失。

8.如权利要求1至3任意一项所述的模型训练方法，其特征在于，所述若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件，包括步骤：

若已满足预设的当轮训练终止条件，获取迭代训练次数、所述模型的推断准确度和/或所述模型的推断差异度；

判断所述迭代训练次数是否达到预设的第一模型迭代次数、所述模型的推断准确度是否达到预设的第一推断准确度和/或所述模型的推断差异度是否达到预设的第一推断差异度。

9.一种模型训练装置，其特征在于，包括：

获取单元，用于获取参与训练的模型、若干个训练数据集以及各个所述训练数据集对应的第一任务生效信息；其中，参与训练的所述模型中存在至少一个相同的任务，各个所述训练数据集中包含已标注数据和/或伪标注数据，所述训练数据集对应的第一任务生效信息用于判断在模型训练中所述训练数据集在所述任务上产生的损失是否反向传播更新所述模型的参数；

训练单元，用于选择在当轮模型训练中使用的目标训练数据集，并根据所述目标训练数据集中的数据训练所述模型，得到所述目标训练数据集在所述任务上产生的损失；

更新单元，用于根据所述目标训练数据集对应的第一任务生效信息和所述目标训练数据集在所述任务上产生的损失，反向传播更新所述模型的参数；

第一判断单元，用于若未满足预设的当轮训练终止条件，重新选择在下一轮模型训练中使用的目标训练数据集，迭代训练所述模型；

第二判断单元，用于若已满足预设的当轮训练终止条件，判断是否满足预设的总训练终止条件；若否，获取模型差异数据，根据人工标注后的所述模型差异数据，重新进行所述模型的训练；其中，所述模型对所述模型差异数据的推断结果不同；若是，停止进行所述模型的训练。

10.一种模型训练设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8任意一项所述方法的步骤。