CN114972725A

CN114972725A - 模型训练方法、可读介质和电子设备

Info

Publication number: CN114972725A
Application number: CN202111657195.3A
Authority: CN
Inventors: 傅蓉蓉; 徐晓忻; 黄全充; 徐强; 纪荣嵘; 周奕毅; 曹刘娟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-08-30
Anticipated expiration: 2041-12-30
Also published as: CN114972725B

Abstract

本申请涉及一种模型训练方法、可读介质和电子设备。该方法包括：采用第一样本集合对第一模型进行训练得到第二模型，其中第一样本集合包括A％的有标签样本和B％的伪标签样本；将C％的无标签样本输入第二模型，得到对应各无标签样本的模型输出结果；从C％的无标签样本中选择出模型输出结果满足预设条件的D％的无标签样本；利用第二样本集合对第二模型进行训练得到第三模型，其中，第二样本集合包括将D％的无标签样本标注后的D％的有标签样本、A％的有标签样本、E％的伪标签样本。本申请的技术方案通过合理选取模型训练所使用的有标签样本，可以提升训练得到的模型的目标检测能力。

Description

模型训练方法、可读介质和电子设备

技术领域

本申请涉及机器学习领域，特别涉及一种模型训练方法、可读介质和电子设备。

背景技术

在自动驾驶、智慧交通、安防、工业质检等业务领域，计算机视觉目标检测(Objectdetection，OD)任务的应用占比很高。要实现高质量的目标检测任务，就需要使用目标检测精度较高的神经网络模型来进行目标检测。

为了使用于实现目标检测功能的神经网络模型(以下简称模型)具有较好的目标检测性能，在对模型进行训练时，需要机器学习领域的人类专家来对训练所用的样本集中的所有图像中的所有目标(例如图像中的人、车辆等)进行标注，得到正确的标签。不难理解，使用具有正确标签的样本集来对前述模型进行训练，所训练出来的模型能够准确识别出待识别的图像中的目标，模型的检测精度较高。但是上述采用人类专家对训练所使用的样本集中所有图像中的目标进行标注的方式效率低，且标注成本较高。

通常为了提高模型训练效率，可以降低样本集中的标注量。而半监督学习(semi-supervised learning，SSL)作为一种常用的降低样本集中的标注量的机器学习技术，得到广泛应用。

参考图1A，半监督学习技术首先需要人类专家对样本集中的部分图像进行目标标注，得到F％的有标签样本，然后利用这F％的有标签样本和剩余的所有无标签样本一起对模型进行训练，直至达到预设训练目标。然而，通常半监督学习技术中的部分有标签样本的选取是随机的，也即随机选取样本集中的部分图像，并且对该部分图像进行人工标注，得到有标签样本。这就有可能会导致随机选取的有标签样本来对模型进行训练后，模型的性能较差。例如，期望训练后得到的模型能够准确识别出图像中的人和车辆这两类目标，然而前述随机选取的部分图像中不存在人和车辆这两类目标，导致采用训练后的模型进行图像目标检测时，无法准确识别出人和车辆这两类目标。

因此，在模型训练过程中，如何选取参与训练的有标签样本，对训练后得到的模型的性能和训练的效率影响较大。

发明内容

有鉴于此，本申请实施例提供了一种模型训练方法、可读介质和电子设备。本申请的技术方案采用伪标签样本和有标签样本构成的样本集对第一模型训练后得到的第二模型，将无标签样本输入第二模型后得到的模型输出结果进行评分，选出满足条件的样本，将标注后得到的新的有标签样本、训练第一模型时使用的有标签样本、剩余的无标签样本对第二模型进行训练，从而得到第三模型。由于训练第二模型时使用了大量的无标签样本，并且第二模型是经过有标签样本和大量无标签样本进行训练后得到的，具有较强的目标检测能力，因此基于第二模型的模型输出结果选出的样本较为准确，有助于提升第三模型的目标检测能力。且本申请技术方案无需模型训练和人工标注多次交替进行，可以提升模型训练效率。

第一方面，本申请实施例提供了一种模型训练方法，用于电子设备，包括：

采用第一样本集合对第一模型进行训练得到第二模型，其中第一样本集合包括A％的有标签样本和B％的伪标签样本，其中B％的伪标签样本是第一模型对C％的无标签样本进行预测得到的，并且B％小于或者等于C％；

将C％的无标签样本输入第二模型，得到对应各无标签样本的模型输出结果；

从C％的无标签样本中选择出模型输出结果满足预设条件的D％的无标签样本；

利用第二样本集合对第二模型进行训练得到第三模型，其中，第二样本集合包括将D％的无标签样本标注后的D％的有标签样本、A％的有标签样本、E％的伪标签样本，其中E％的伪标签样本是第二模型对(C-D)％的无标签样本进行预测得到的，并且E％小于或者等于(C-D)％。

可选的，第一模型为弱能力模型，第二模型为强能力模型，第三模型为最终得到的目标检测模型。A％的有标签样本为10％的有标签样本；B％的伪标签样本为小于或等于90％的伪标签样本；C％的无标签样本为90％的无标签样本；D％的无标签样为15％的无标签样本；标注后的D％的有标签样本为对15％的无标签样本进行人工标注后得到的15％的新的有标签样本。E％的伪标签样本为第二模型对75％的无标签样本进行标签预测后得到的伪标签样本。

由于训练第二模型时使用了大量的无标签样本，并且第二模型是经过有标签样本和大量无标签样本进行训练后得到的，具有较强的目标检测能力，因此基于第二模型的模型输出结果选出的样本较为准确，有助于提升第三模型的目标检测能力。且本申请技术方案无需模型训练和人工标注多次交替进行，可以提升模型训练效率。

在上述第一方面的一种可能的实现中，第三模型用于图像目标检测。

由于训练第二模型时使用了大量的无标签样本，并且第二模型是经过有标签样本和大量无标签样本进行训练后得到的，具有较强的目标检测能力，因此基于第二模型的模型输出结果选出的样本较为准确，采用选择出的样本经过标注后得到的有标签样本、训练第一模型时使用的有标签样本、剩余的无标签样本对第二模型进行训练，从而得到第三模型，使得第三模型的目标检测能力较强。

在上述第一方面的一种可能的实现中，各无标签样本的模型输出结果为：采用第二模型对C％的无标签样本进行目标检测得到的对应各无标签样本的目标检测结果；并且，

从C％的无标签样本中选择出模型输出结果满足预设条件的D％的无标签样本，包括：

基于各无标签样本的目标检测结果，对C％的无标签样本进行评分，得到对应C％的无标签样本中各无标签样本的评分结果；

根据各无标签样本的评分结果，按照评分从高到低的顺序从C％的无标签样本中选择出D％的无标签样本。

可选的，从C％的无标签样本中选择出评分最高的D％的无标签样本。因为这D％的无标签样本是基于目标检测结果的评分确定出来的，因此，这D％的无标签样本的目标检测结果较好，采用这D％的无标签样本进行标注后对第二模型进行训练，可以使训练得到的第三模型的目标检测能力较高。

在上述第一方面的一种可能的实现中，基于各无标签样本的目标检测结果，对C％的无标签样本进行评分，得到对应C％的无标签样本中各无标签样本的评分结果，包括：

基于各无标签样本的目标检测结果，计算出C％的无标签样本中各无标签样本的不确定分数、信息量分数以及多样性分数；

基于计算出的C％的无标签样本中各无标签样本的不确定分数、信息量分数以及多样性分数，计算出C％的无标签样本中各无标签样本的价值分数；

将C％的无标签样本中各无标签样本的价值分数分别作为对应C％的无标签样本中各无标签样本的评分结果。

在上述第一方面的一种可能的实现中，还包括：通过以下公式计算出C％的无标签样本中各无标签样本的价值分数S_i：

其中，S_i为C％的无标签样本中第i个样本的价值分数；

为C％的无标签样本中第i个样本的不确定性分数；

为C％的无标签样本中第i个样本的信息量分数；

为C％的无标签样本中第i个样本的多样性分数；β₁为不确定性分数的权重；β₂为信息量分数的权重；β₃为多样性分数的权重。

在上述第一方面的一种可能的实现中，各无标签样本的目标检测结果包括：各无标签样本中各目标框的位置、各目标框的分类概率分布、各目标框的类别、各目标框的置信度中的至少一种。

在上述第一方面的一种可能的实现中，还包括：通过以下公式计算出C％的无标签样本中第i个样本的不确定性分数

其中，

是C％的无标签样本中第i个样本中的目标框数目；

p(c_k；b_j,θ_t)是C％的无标签样本中第i个样本中各目标框内的目标是第k类目标的预测概率；

N_c是C％的无标签样本中第i个样本中包含的目标种类的数目；

α_k是C％的无标签样本中第i个样本中的各目标框内的目标是第k类目标的预测概率的权重。

在上述第一方面的一种可能的实现中，还包括：按照以下公式，计算出C％的无标签样本中各样本的信息量分数

confidence(c_k；b_j,θ)为第二比例的无标签样本中第i个样本中第j个目标框的置信度；

是C％的无标签样本中第i个样本中的目标框数目；

在上述第一方面的一种可能的实现中，还包括：按照以下公式，计算出C％的无标签样本中各样本的不确定分数

其中c_j是C％的无标签样本中第i个样本中第j个目标框的类别；

是C％的无标签样本中第i个样本中的目标框数目。

第二方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质上存储有指令，该指令在电子设备上执行时使电子设备执行上述第一方面以及第一方面的各种可能的实现中的任意一种模型训练方法。

第三方面，本申请实施例提供了一种计算机程序产品，其特征在于，计算机程序产品包括指令，指令当被一个或多个处理器执行时用于实现上述第一方面以及第一方面的各种可能的实现中的任意一种模型训练方法。

第四方面，本申请实施例提供了一种电子设备，包括：

存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及

处理器，当指令被一个或多个处理器执行时，处理器用于执行上述第一方面以及第一方面的各种可能的实现中的任意一种模型训练方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A示出了一种利用半监督学习技术进行模型训练的过程示意图；

图1B根据本申请的一些实施例，示出了一种自动驾驶应用场景示意图；

图2A根据本申请的一些实施例，示出了一种模型训练过程示意图；

图2B根据本申请的一些实施例，示出了另一种模型训练过程示意图；

图3根据本申请的一些实施例，示出了一种图1B所示的应用场景中的服务器的硬件结构示意图；

图4根据本申请的一些实施例，示出了一种模型训练方法的流程示意图；

图5根据本申请的一些实施例，示出了图1B所示的自动驾驶汽车采集的环境图像；

图6根据本申请的一些实施例，示出了一种对mean-teacher模型进行训练的过程示意图；

图7根据本申请的一些实施例，示出了一种对mean-teacher模型进行训练的流程示意图；

图8根据本申请的一些实施例，示出了一种图1B所示的应用场景中的自动驾驶汽车的硬件结构示意图。

具体实施方式

本申请的说明性实施例包括但不限于一种模型训练方法、可读介质和电子设备。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如背景技术所述，在目标检测业务领域，通常使用如图1A所示的半监督学习技术对神经网络模型(以下简称模型)进行训练，以得到具有目标检测功能的模型(以下简称目标检测模型)。而在半监督学习技术的模型训练过程中，部分有标签样本的选取是随机的，这就有可能会导致随机选取的有标签样本来对模型进行训练后，模型的性能较差。因此，在模型训练过程中，如何选取参与训练的有标签样本，对训练后得到的模型的性能和训练的效率影响较大

为了方便理解本申请的技术方案，下面将结合图1B所示的一种自动驾驶应用场景，以及图2A和2B所示的简要流程，对本申请的技术方案如何选取模型训练所使用的样本集中的有标签样本，以及模型训练的过程进行详细介绍。

图1B根据本申请的一些实施例，示出了一种自动驾驶的应用场景。自动驾驶汽车200和服务器100之间可以通过无线通信技术建立通信连接。

自动驾驶汽车200中部署有目标检测模型，自动驾驶汽车200可以利用安装在自动驾驶汽车200上的传感器(如，摄像头)拍摄到的图像或视频中的图像进行目标检测，从而能够自动识别出自动驾驶汽车200在自动行驶过程中路面上的各种障碍物的类别。例如，可以自动识别出前方行驶路面是否有迎面驶来的车辆、行人、骑行者等关键障碍物，以及路边的灌木丛、树木、建筑物等非关键障碍物等。例如，参考图1B，自动驾驶汽车200通过目标检测模型从摄像头拍摄的图像中自动识别出行驶前方存在第一路人、第二路人、第一车辆以及第二车辆，从而及时避让车辆和行人。

自动驾驶汽车200中部署的目标检测模型是由服务器100基于本申请提供的模型训练方法训练得到的。服务器100通过执行本申请提供的模型训练方法对待训练的模型进行训练，得到上述目标检测模型，然后将训练好的目标检测模型移植到自动驾驶汽车200中。

在一些实施例中，服务器100通过执行本申请提供的模型训练方法对待训练的模型进行训练过程如图2A所示。参考图2A，首先通过人类专家对样本集中的部分图像进行目标标注，得到G％的有标签样本，利用这G％的有标签样本对初始模型进行训练。然后利用训练后的模型从初始样本集的未标注样本中预测出有助于提升模型性能的样本(简称为有利样本)，再由人类专家对这部分有利样本进行标注，将标注后的样本和原先G％的有标签样本构成H％的有标签样本。再利用H％的有标签样本对上述利用G％的有标签样本训练得到的模型进行训练，然后重复上述的有利样本挑选、人工标注、有标签样本训练过程，直至达到预设训练目标。

然而，在图2A所示的模型训练过程中，由于每次参与训练的样本只是有限的有标签样本，没有大量的无标签样本，会导致训练得到的模型容易过拟合，从而使选择的有利样本实际上会使模型的性能不佳。且模型训练和人工标注多次交替进行，训练效率较低。

为此，本申请提供的图2B所示的另一种模型训练方案，通过合理选取模型训练所使用的样本集中的有标签样本，使训练后得到的模型在对图像进行目标检测时，准确率较高，并且模型训练的效率高。下面对服务器100通过执行图2B所示的模型训练方法对待训练的模型进行训练，得到上述目标检测模型的过程进行简要介绍。

参考图2B，在一些实施例中，服务器100通过执行本申请提供的技术方案，可以通过图2B所示的阶段1至阶段3这三个训练阶段来训练模型。其中，阶段2训练的对象是阶段1训练得到的模型，阶段3的训练对象是阶段2训练得到的模型。具体的训练过程如下：

阶段1：在服务器100开启一次模型训练任务时，首先确定该次模型训练任务中所使用的初始样本集中的有标签样本总量。例如，假设模型训练完成后最终需要的有标签样本的总量和初始样本集Lsum中样本总量的比值为25％。然后获取由人类专家首次在初始样本集Lsum中标注出的一部分有标签样本(以下简称初始有标签样本Las1)。例如初始有标签样本Las1的数量和初始样本集Lsum中样本总量的比值为10％，其中初始有标签样本的选取是服务器100随机分配的。利用初始有标签样本Las1对待训练的模型M进行训练，得到具有较弱的目标检测能力的模型M＇(以下简称为弱能力模型M＇)。

阶段2：利用弱能力模型M＇对初始样本集中除了前述随机分配的初始有标签样本Las1以外的所有无标签样本Lo1(可以理解，Lo1＝Lsum-Las)进行标签预测，得到各无标签样本对应的伪标签(Pseudo-Label)样本Lo1＇。

例如初始有标签样本Las1的数量和初始样本集Lsum中样本总量的比值为10％，则阶段2中涉及的无标签样本Lo1的数量和初始样本集Lsum中样本总量的比值为90％，采用弱能力模型M＇对这90％的无标签样本Lo1进行标签预测，得到和初始样本集中样本总量的比值为90％的伪标签样本Lo1＇(由于弱能力模型M＇的目标检测能力较差，利用该模型预测的样本标签有可能不是完全正确，因此将预测的样本标签称为伪标签，将具有伪标签的样本称为伪标签样本)。

然后利用由初始有标签样本Las1以及前述伪标签样本Lo1＇构成的第一样本集Lsum＇对弱能力模型M＇进行训练，例如将由10％的初始有标签样本Las1和90％的伪标签样本Lo1＇构成的第一样本集Lsum＇对弱能力模型M＇进行训练，得到具有较强目标检测能力的模型(以下简称强能力模型M″)。

阶段3：利用强能力模型M″对初始样本集Lsum中除了前述随机分配的初始有标签样本Las1以外的所有无标签样本Lo1进行目标检测，得到各无标签样本的目标检测结果。然后根据各无标签样本的目标检测结果，按照预测筛选规则从无标签样本Lo1中筛选出满足预设条件的无标签样本Lo2(未示出)，进行人工标注，得到新的有标签样本Las2。例如，满足预设条件的无标签样本Lo2和初始样本集中样本总量的比值为15％，这15％的无标签样本Lo2经过人工标注后得到新的占比为15％的有标签样本Las2。在一些实施例中，服务器100可以基于对上述各无标样本的目标检测结果进行评分，从上述无标签样本Lo1中筛选出评分较高的无标签样本Lo2，也即上述预设条件为评分达到设定分数阈值。

再采用和上述阶段2相同的方式，对初始样本集Lo1中除了初始有标签样本Las1以及新的有标签样本Las2之外的无标签样本Lo2进行标签预测，得到新的伪标签样本Lo2＇。再利用由前述初始有标签样本Las1、新的有标签样本Las2、新的伪标签样本Lo2＇构成的第二样本集Lsum″，对强能力模型M″进行训练，得到目标检测模型M″′。例如，初始有标签样本为初始样本集Lsum中样本总量的10％，新的有标签样本Las2为初始样本集Lsum中样本总量的15％，则需要对初始样本集Lsum中75％的无标签样本Lo2进行标签预测，得到样本总量和初始样本集Lsum中样本总量的比值为75％的新的伪标签样本Lo2＇。然后对由占比为10％的初始有标签样本Las1、占比为15％的新的有标签样本Las2、占比为75％的新的伪标签样本Lo2＇构成的第二样本集Lsum″，对强能力模型M″进行训练，从而得到目标检测模型M″＇。

从以上关于图2B所示的模型训练过程的描述中不难看出，服务器100通过执行本申请提供的模型训练方案，在整个模型训练的过程中，参与训练的有标签样本一部分是随机分配的，另一部分是由强能力模型筛选出来的对提升模型的目标检测能力有利的样本。相较于背景技术中所述的有标签样本是随机分配的半监督学习的模型训练方案，可以极大地提升目标检测模型的目标检测能力。此外，如图2B所示，服务器100在执行本申请提供的模型训练方案的过程中，在主动筛选出有利样本并人工标注得到新的有标签样本之后，是利用初始分配的有标签样本、新的有标签样本以及与未被选取的剩余的无标签样本对应的新的伪标签样本，对强能力模型进行训练。也即，本申请技术方案中，初始样本集中的所有样本都参与了模型训练过程。相较于图2A所示的只用有限的有标签样本而未利用到大量的无标签样本进行模型训练的方案，图2B所示的模型训练方案可以使模型学习的特征更多，且主动筛选出的有利样本更加准确，可以提升目标检测模型的目标检测能力。且如图2B所示的模型训练过程中，只涉及到两次人工标注，相较于图2A所示的模型训练方案，无需模型训练和人工标注多次交替进行，可以提升模型训练效率。

应理解，在一些情况下，上述阶段3所述的模型训练过程还可以重复多次进行。例如，在一些实施例中，上述阶段3所述的新的有标签样本的主动筛选过程可以分多次进行，使得最终筛选出来的新的有标签样本的数量和前述初始有标签样本的数量的综合为预先设定的有标签样本总量。可以根据实际情况确定重复的次数，本申请对此不作限定。

应理解，上文介绍的自动驾驶的应用场景只是本申请实施例的模型训练方法适用的一个应用场景的示例。通过本申请实施例训练后得到的目标检测模型并不仅限于自动驾驶的应用场景，其能够应用到任何需要进行图像分类或者图像识别的场景中，例如包括但不限于相册分类、车辆检测、医学影像识别等等。

应理解，本申请技术方案适用的待训练的神经网络模型包括但不限于卷积神经网络(Convolutional Neural Network，CNN)、深度神经网络(Deep Neural Networks，DNN)以及循环神经网络(Recurrent Neural Networks，RNN)、二值神经网络(Binary NeuralNetwork，BNN)等各种神经网络模型。

应理解，上述实施例所述的模型训练过程是在服务器100上实现的。在本申请技术方案的其他实施例中，模型训练过程还可以由终端设备实现，例如可以由终端设备(如，手机、智能手表等)、轮式移动设备(如，自动驾驶车辆、辅助驾驶车辆等)等获取样本集，并根据样本集内的训练样本对待训练模型进行训练，得到训练后的目标检测模型，该训练后的目标检测模型可以直接在该终端设备使用，也可以由该终端设备发送给其他的电子设备使用。本申请实施例对待训练模型在哪个设备(服务器或终端侧)上进行训练，以及训练后得到的目标检测模型在哪个设备上使用不做限定。为了便于说明，下面继续以实现模型训练的电子设备为如图1B所示的服务器100为例进行说明。

以下首先结合图3，对执行本申请实施例的模型训练方案的服务器100的硬件结构进行介绍。

图3根据本申请的一些实施例，示出了一种服务器100的结构框图。具体地，如图3所示，服务器100包括一个或多个处理器104，与处理器104中的至少一个连接的系统控制逻辑108，与系统控制逻辑108连接的系统内存112，与系统控制逻辑108连接的非易失性存储器(NVM)116，以及与系统控制逻辑108连接的网络接口120。

在一些实施例中，处理器104可以包括一个或多个单核或多核处理器。在一些实施例中，处理器104可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。在服务器100采用增强型基站(Evolved Node B，eNodeB)或无线接入网(Radio Access Network，RAN)控制器的实施例中，处理器104可以被配置为执行各种符合的实施例。

在一些实施例中，处理器104可以用于随机选取出一部分样本经由人类专家标注后得到有标签样本，利用有标签样本对待训练模型进行训练得到弱能力模型，利用弱能力模型对初始样本集的无标签样本进行标签预测，得到伪标签样本，再利用前述有标签样本和伪标签样本对弱能力模型进行训练，得到强能力模型。再利用强能力模型对初始样本集中的无标签样本进行目标检测，并对目标检测结果进行评分，筛选出评分较高的一部分无标签样本，供人类专家标注，得到第二次人工标注的有标签样本。再利用前述随机分配的经由人类专家标注的有标签样本、第二人工标注的有标签样本以及剩余的无标签样本对强能力模型进行训练，得到最终的目标检测模型。

在一些实施例中，系统控制逻辑108可以包括任意合适的接口控制器，以向处理器104中的至少一个和/或与系统控制逻辑108通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑108可以包括一个或多个存储器控制器，以提供连接到系统内存112的接口。系统内存112可以用于加载以及存储数据和/或指令。在一些实施例中服务器100的内存112可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。在一些实施例中，系统内存112可以用于加载或者存储实施模型训练的指令。

NVM/存储器116可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器116可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如硬盘驱动器(Hard Disk Drive，HDD)，光盘(Compact Disc，CD)驱动器，数字通用光盘(Digital Versatile Disc，DVD)驱动器中的至少一个。NVM/存储器116还可以用于存储上述神经网络模型的所训练出的权重。

NVM/存储器116可以包括安装服务器100的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口120通过网络访问NVM/存储116。

特别地，系统内存112和NVM/存储器116可以分别包括：指令124的暂时副本和永久副本。指令124可以包括：由处理器104中的至少一个执行时导致服务器100实施如本申请的一些实施例中一些模型训练方法的指令。在一些实施例中，指令124、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑108，网络接口120和/或处理器104中。

网络接口120可以包括收发器，用于为服务器100提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口120可以集成于服务器100的其他组件。例如，网络接口120可以集成于处理器104的，系统内存112，NVM/存储器116，和具有指令的固件设备(未示出)中的至少一种，当处理器104中的至少一个执行所述指令时，服务器100实现如图2B所示的模型训练方案。

网络接口120可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口120可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一些实施例中，处理器104中的至少一个可以与用于系统控制逻辑108的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一些实施例中，处理器104中的至少一个可以与用于系统控制逻辑108的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

服务器100可以进一步包括：输入/输出(I/O)设备132。I/O设备132可以包括用户界面，使得用户能够与服务器100进行交互；外围组件接口的设计使得外围组件也能够与服务器100交互。在一些实施例中，服务器100还包括传感器，用于确定与服务器100相关的环境条件和位置信息的至少一种。

下面结合图4所示的流程图，以上述服务器100为执行主体，详细介绍服务器100通过本申请提供的实施例进行模型训练的一种训练流程。具体地，如图4所示，服务器100采用本申请提供的技术方案进行模型训练的一种训练流程包括以下各个步骤：

S401：确定初始样本集的预测标注比例。

在一些实施例中，在开发人员想要利用服务器100训练得到目标检测模型时，可以根据经验值，基于开发人员的需求，例如根据想要获得的模型精度和模型训练效率，确定出在利用初始样本集训练待训练模型的整个过程中，参与模型训练的有标注样本和初始样本集中所有样本的比值，也即预测标注比例，然后将该预测标注比例输入服务器100。

例如初始样本集中样本总量为1000张图像，预测标注比例为25％，则目标标注样本为2500张图像。

S402：在初始样本集中随机选取第一比例的样本进行人工标注，得到第一比例的有标签样本。

该过程中参与训练的样本均为有标签样本，因此该训练过程也通常被称为有监督训练过程。应理解，人类专家在对服务器100随机选取的100张图像进行人工标注时，是对这100张图像中的预设类别的目标进行标注。例如，图5所示的图像P0中包括车辆T1和人T2，则人类专家在图像P0中标注出车辆T1和人T2之后，将已标注的图像P0输入服务器100。以供服务器100从图像P0中提取出车辆T1和人T2这两个目标的特征，然后学习从图像P0中提取出的车辆T1和人T2这两个目标的特征。应理解，在模型学习了大量图像中的人和车辆的特征之后，利用该模型对包含有人和车辆的图像进行目标检测时，便可以检测出图像中的人和车辆这两类目标。

在一些实施例中，服务器100可以通过运行开发人员编写的随机选取样本的可执行程序，从初始样本集中随机选取第一比例的样本进行人工标注。在另一些实施例中，服务器100还可以根据设定的选取规则，例如选取初始样本集中前N个样本(这N个样本在初始样本集中所占的比例为第一比例)进行人工标注。其中，第一比例的取值可以视具体情况而定，例如第一比例为10％，本申请对此不作限定。

S403：利用第一比例的有标签样本对待训练模型进行训练，得到弱能力模型。

其中，待训练模型可以是任意一种神经网络模型，例如为卷积神经网络(Convolutional Neural Network，CNN)模型。需要说明的是，在使用第一比例的有标签样本对模型进行训练时，每个完整的训练过程只对应一张有标签样本图像。例如有100张有标签样本图像，可以先使用第一张图像中的各个目标区域的特征对待训练模型进行训练，第一张图像训练完成后，再使用第二张图像中的各个目标区域的特征对待训练模型进行训练，依此类推，直至待训练模型收敛。每一张图像训练完成后，将模型最终输出的图像识别结果样本和期望结果样本进行比较，计算出误差，根据该误差，求出偏导数，基于求出的偏导数对模型的权重进行调整。如此，通过输入有标签样本对待训练模型进行训练，不断地调整模型权重，在模型最终输出的图像识别结果样本和期望结果样本之间的误差小于误差阈值时，模型收敛，得到弱能力模型。

S404：利用弱能力模型对第二比例的无标签样本进行标签预测，得到第二比例的伪标签样本，其中第二比例+第一比例＝100％。

例如，初始样本集中样本总量为1000张图像，随机选取其中10％的样本(也即100张图像，经由人工标注后得到100张有标签样本，利用这100张有标签样本对待训练模型进行有监督训练，得到弱能力模型之后。利用弱能力模型对剩余900张未人工标注的样本图像进行标签预测，得到这900张样本图像的伪标签。其中，标签预测的过程为：采用弱能力模型分别对初始样本集中900张图像进行目标检测，得到这900张图像的目标检测结果。例如，假设整个训练任务是：最终训练得到的目标检测模型在图像进行目标检测时，能够检测出图像中两个类别(例如人和车辆)的目标，则采用弱能力模型分别对初始样本集中900张图像进行目标检测，则是采用弱能力模型分别对初始样本集中900张图像进行前述两个类别的目标检测，也即对这900张图像中的每一张图像进行前述两个类别的目标检测，例如，检测这900张图像中的每一张图像中是否有人和车辆这两个目标。

应理解，采用第一比例的有标签样本训练得到的弱能力模型已经具有一定的目标检测能力。因此，利用弱能力模型对第二比例的无标签样本进行标签预测(也即目标检测)，可以得到至少部分较为准确的样本标签。例如，利用弱能力模型检测900张无标签样本图像中的人和车辆这两类目标，分别得到这900张样本图像的目标检测结果。其中，伪标签也即这900张样本图像中包含的目标情况，例如其中一张图像即包括人又包括车辆，则该张图像的伪标签可以为：人和车辆。又如，另一张图像只包括人或车辆，则该张图像的伪标签可以为：人或车辆。

应理解，在采用第一比例的有标签样本训练得到的弱能力模型，虽然具有一定的目标检测能力，但是由于第一比例的有标签样本的样本量较少，因此训练得到的弱能力模型的目标检测精度较低，目标检测能力还较弱，因此还需要用更多的样本对弱能力模型进行训练，以提高模型的目标检测能力，以使最终得到的模型在进行目标检测时，检测的精度更高，检测的结果更加准确。

S405：利用第一比例的有标签样本和第二比例的伪标签样本对弱能力模型进行训练，得到强能力模型。

例如，初始样本集中样本总量为1000张图像，第一比例为10％，第二比例为90％，也即有标签样本为100张，伪标签样本为900张。则采用100张有标签样本图像，和900张伪标签样本图像对弱能力模型进行训练，以进一步提升模型的目标检测能力，得到强能力模型。

S406：利用强能力模型对第二比例的无标签样本进行目标检测，得到各无标签样本的目标检测结果。以使服务器100基于第二比例的各无标签样本的目标检测结果，从第二比例的无标签样本中选取出有利于提升模型的目标检测性能的样本，经由人工标注后对强能力模型继续进行训练，从而得到目标检测性能较高的目标检测模型。其中，各无标签样本的目标检测结果可以包括各无标签样本图像中所有目标框位置，每个目标框的分类概率分布、类别、置信度。

在一些实施例中，初始样本集中样本总量为1000张图像，无标签样本为900张图像，则采用100张有标签样本图像、弱能力模型进行伪标签预测后得到的900张伪标签样本图像，对弱能力模型进行训练得到强能力模型之后，利用强能力模型对初始样本集中900张无标签样本进行目标检测，得到这900张无标签样本的目标检测结果。

S407：按照预测筛选规则，基于各无标签样本的目标检测结果，从第二比例的无标签样本中筛选出第三比例的无标签样本进行人工标注，得到第三比例的有标签样本，其中第三比例+第一比例＝预测标注比例。

在一些实施例中，服务器100可以按照预测筛选规则，根据各无标签样本的目标检测结果，计算出各无标签样本的不确定性、信息量、多样性，然后从不确定性、信息量、多样性这三个维度确定出各无标签样本的价值分数，基于各无标签样本的价值分数从初始样本集中的无标签样本中选取第三比例的无标签样本进行人工标注，例如按照样本的价值分数从高到低对无标签样本进行排序，从中选取分数较高的一部分无标签样本，经由人工标注后，得到第三比例的有标签样本。例如，预测标注比例为25％，则第三比例为15％，也即按照样本的价值分数从高到低对初始样本集中90％的无标签样本进行排序，筛选出评分靠前的前15％的无标签样本进行人工标注，得到15％的有标签样本。

其中，不确定性用于表征样本内容的复杂度，确定性越高，表明样本内容越复杂，对内容复杂的样本进行目标检测得到的目标检测结果的不确定性就越高。信息量是用于表征样本中目标框的总量。样本中的目标框越多，表明样本的信息量越高。多样性用于表征样本中目标类别的分布丰富程度。样本中的目标类别越多，表明样本的多样性越高。

在一些实施例中，可以首先分别计算出样本在不确定性、信息量、多样性这三个维度的分数，然后再基于样本在不确定性、信息量、多样性这三个维度的分数，确定出样本的总体价值分数。具体如何计算样本在不确定性、信息量、多样性这三个维度的分数，以及如何基于样本在不确定性、信息量、多样性这三个维度的分数计算出样本的总体价值分数，将在下文中进行示例性介绍。

S408：利用预测标注比例的有标签样本和剩余的无标签样本对强能力模型进行训练，得到目标检测模型。以进一步提升强能力模型的目标检测能力，使得在利用训练得到的目标检测模型进行目标检测时，目标检测的结果较为准确。

例如，利用通过以上步骤S407从初始样本集的90％的无标签样本中筛选出15％的无标签样本，并且经过人工标注后得到15％的有标签样本，再将这15％的有标签样本和在步骤S402中随机选取出来经过人工标注后得到的10％的有标签样本，一共构成25％的有标签样本。利用这25％的有标签样本和初始样本集中75％的无标签样本对前述强能力模型进行训练，得到最终的目标检测模型。

如此，使得服务器100通过执行本申请提供的模型训练方案，在整个模型训练的过程中，参与训练的有标签样本有一部分是随机分配的，有一部分是具有较强目标检测能力的模型对无标签样本进行目标检测后，筛选出来的对提升模型的目标检测能力有利的无标签样本经过人工标注后得到的。相较于常规的半监督学习的模型训练方案，可以极大地提升目标检测模型的目标检测能力。服务器100在执行本申请提供的模型训练方案的过程中，初始样本集中的所有样本都参与了模型训练过程，相较于现有技术中未完全使用初始样本集中的所有样本的主动学习的模型训练方案，可以提升目标检测模型的目标检测能力。且在本申请实施例提供的模型训练过程中，只涉及到两次人工标注，相较于主动学习的模型训练方案，无需模型训练和人工标注多次交替进行，可以提升模型训练效率。

可以理解，上述步骤S401至步骤S408的执行顺序只是一种示意，在另一些实施例中，也可以采用其他执行顺序，还可以拆分或合并部分步骤，在此不做限定。

下面对上述S407中涉及的样本的总体价值分数，以及样本的不确定性分数、样本的信息量分数以及样本的多样性分数的计算进行示例性介绍。

例如，假设样本的不确定性分数用

表示；样本的信息量分数用

表示；样本的多样性分数用

表示，样本的总体价值分数用S_i表示，则在一些实施例中，S_i可以通过以下公式(1)计算出来：

在一些实施例中，可以通过对样本的不确定性分数、样本的信息量分数以及样本的多样性分数进行归一化处理，例如采用Min-Max归一化方法，或者使用Z-Score标准化方法，将样本的前述三个维度的分数调整至[0，1]范围内，以使不确定性分数、样本的信息量分数以及样本的多样性分数的量纲统一，然后将归一化处理后的不确定性分数、样本的信息量分数以及样本的多样性分数进行加权求和，从而得到样本的总体价值分数。

在一些实施例中，还可以根据实际需求，给样本的不确定性分数、样本的信息量分数以及样本的多样性分数分别赋予不同的权重β_i，i∈[1,3]。则在一些实施例中，S_i可以通过以下公式(2)计算出来：

在一些实施例中，还可以根据实际需求，将样本的不确定性分数、样本的信息量分数以及样本的多样性分数构成向量

然后对该向量使用L-p范数(p>＝1)整合为单个标量，则S_i可以通过以下公式(3)计算出来：

可以理解，以上公式(1)至公式(3)只是本申请技术方案中计算样本的总体价值分数的3个示例，在实际应用中，具体如何计算样本的总体价值分数，可以视实际情况而定，本申请对此不作限定。

下面分别介绍计算样本的总体价值分数所涉及的样本的不确定性分数、样本的信息量分数以及样本的多样性分数的计算方法。

1)样本的不确定性分数的计算

在一些实施例中，样本的不确定性分数可以根据通过目标检测得到的样本的各目标框的概率分布计算出来，例如可以通过以下公式(4)计算出来样本的不确定性分数

其中

是服务器100对第i个样本图像进行非极大值抑制及置信度过滤后得到的目标框数目，N_c是目标种类的数目，p(c_k；b_j,θ_t)是样本图像中的某个目标框内的目标是第k类目标的预测概率。此外，

为样本中一个目标框的熵，各目标框的熵越高，表明样本预测(也即对该样本进行目标检测)的不确定性越大。

在一些实施例中，在计算样本的不确定性分数时，还可以对样本图像中的各目标框内的目标是第k类目标的预测概率进行加权求和，从而通过以下公式(5)计算出来样本的不确定性分数

其中，α_k为样本图像中的各目标框内的目标是第k类目标的预测概率的权重。

可以理解，以上公式(4)和公式(5)只是本申请技术方案中计算样本的不确定性分数的2个示例，在实际应用中，具体如何计算样本的不确定性分数，可以视实际情况而定，本申请对此不作限定。例如，在一些实施例中，还可以根据样本中各目标框概率分布熵值的最大值，确定样本的不确定性分数。

2)样本的信息量分数的计算

样本的信息量分数的计算与样本图像中目标框的总数及各个目标框的置信度相关，例如将各目标框置信度的总和作为样本的信息量分数，则样本的信息量分数

可以通过以下公式(6)计算出来：

其中confidence(b_j,θ)为强能力模型预测的第i个样本中第j个目标框的置信度。

同样地，在一些实施例中，还可以对样本中各目标框所属的目标类别k，对各目标框的置信度赋予不同的权重α_k，然后再对各目标框的置信度进行加权求和，则样本的信息量分数

可以通过以下公式(7)计算出来：

可以理解，以上公式(6)和公式(7)只是本申请技术方案中计算样本的信息量分数的2个示例，在实际应用中，具体如何计算样本的信息量分数，可以视实际情况而定，本申请对此不作限定。

3)样本的多样性分数的计算

在一些实施例中，可以根据强能力模型检测出来的样本图像中的所有目标框所涵盖的目标类别数，计算得到样本的多样性分数。例如，样本的多样性分数

可以通过以下公式(8)计算出来：

其中c_j是第i个样本图像中第j个目标框的类别，|·|表示集合的基数。

可以理解，以上公式(8)只是本申请技术方案中计算样本的多样性分数的1个示例，在实际应用中，具体如何计算样本的多样性分数，可以视实际情况而定，本申请对此不作限定。

从以上关于图4的模型训练方案的介绍中不难看出，本申请提供的模型训练方案，在整个训练过程中，即有有标签样本参与训练，也有无标签样本参与训练，因此，本申请实施例提供的技术方案本质上是不同于现有技术的另一种半监督机器学习技术。

下面将以待训练的模型为半监督机器学习领域常用的mean-teacher模型(也可称为教师学生模型)为例，简要介绍采用本申请的技术方案对mean-teacher模型进行训练，得到目标检测模型的过程。

具体地，图6根据本申请的一些实施例，示出了服务器100采用本申请的技术方案对mean-teacher模型进行训练的训练过程示意图。mean-teacher模型实质上是一种半监督学习模型，在模型训练过程中，训练的对象为学生模型，教师模型的权重参数是基于学生模型的权重参数更新得到的。教师模型参与本申请技术方案涉及的对初始样本集中的未标注样本的伪标签预测以及在高价值样本筛选阶段对初始样本集中未标注样本的目标检测。最终在完成对学生模型的训练之后，将基于最终训练得到的学生模型的权重参数对权重参数进行更新后的教师模型作为目标检测模型。

参考图6，首先服务器100采用随机分配的方式从初始样本集中随机选取一小部分的无标签样本进行人工标注，然后利用人工标注得到的有标签样本对mean-teacher模型中的学生模型进行有监督训练，得到一阶段学生模型。服务器100将一阶段学生模型的权重参数通过权重指数滑动平均更新的方式，更新教师模型的权重参数。由教师模型对初始样本集中剩余的无标签样本进行伪标签预测，得到伪标签样本。由伪标签样本和前述随机分配并经由人工标注得到的有标签样本对一阶段学生模型进行训练，得到二阶段学生模型。利用二阶段学生模型的权重参数对教师模型的权重参数进行更新后得到的教师模型，对初始样本集的无标签样本进行目标检测，得到无标签样本的目标检测结果。再基于和上述图4中的步骤S407类似的预设筛选规则，从初始样本集的无标签样本中筛选出高价值样本，并经由人工标注之后，得到新的有标签样本。最后利用前述随机分配的有标签样本和新的有标签样本，以及初始样本集中剩余的无标签样本，对二阶段学生模型进行训练，得到完成训练的学生模型。利用完成训练的学生模型的权重参数对教师模型的权重参数进行更新，从而得到目标检测模型。

下面将结合图7所示的流程图，对本申请实施例提供的如图6所示的对mean-teacher模型进行训练的过程进行详细介绍。图7所示的各个步骤的执行主体也可以为图1B所示的场景中的服务器100，具体地，如图7所示，采用本申请的技术方案对mean-teacher模型进行训练的过程包括以下各个步骤：

S701：初始样本集随机划分。

例如，服务器100可以通过运行开发人员编写的随机选取样本的可执行程序，从初始样本集中随机选取一小部分的无标签样本进行人工标注，剩余的无标签样本暂时不做处理。在另一些实施例中，服务器100还可以根据设定的选取规则，例如选取初始样本集中前N个样本进行人工标注。其中，具体如何随机划分初始样本集可以视具体情况而定，本申请对此不作限定。

S702：初始有监督训练。

例如，利用随机选取的一小部分的无标签样本经过人工标注后得到的有标签样本，对mean-teacher模型中的学生模型进行训练，得到一阶段学生模型。不难理解，一阶段学生模型具有一定的目标检测能力，但由于一段学生模型是由一小部分的有标签样本训练得到的，因此一阶段学生模型的目标检测能力还较差。

S703：半监督师生训练。

例如，服务器100将一阶段学生模型的权重参数通过权重指数滑动平均更新的方式，更新教师模型的权重参数。由权重参数已被更新过的教师模型对初始样本集中剩余的无标签样本进行伪标签预测，得到伪标签样本。由伪标签样本和前述随机分配并经由人工标注得到的有标签样本对一阶段学生模型进行训练，得到二阶段学生模型。再利用二阶段学生模型的权重参数同步更新教师模型的权重参数。

在一些实施例中，服务器100还可以将半监督师生训练过程划分为不同的训练阶段。例如，服务器100可以将初始样本集中剩余的无标签样本划分成多个无标签样本子集，对利用与每个样本子集中的无标签样本对应的伪标签样本、前述随机分配后由人工标注得到的有标签样本、剩余的无标签样本，对学生模型进行半监督训练的过程作为一个训练阶段。

具体地，半监督师生训练的过程可以为：首先利用权重参数已被更新过的教师模型对其中一个无标签样本子集中的无标签样本进行标签预测，得到对应该无标样本子集的伪标签样本，再利用该子集中的伪标签样本、前述随机分配后由人工标注得到的有标签样本、剩余的无标签样本，对前述一阶段学生模型进行半监督训练。训练完成后，将教师模型的权重同步更新为半监督训练得到的学生模型的权重，再利用更新的教师模型对另一个无标签样本子集中的无标签样本进行伪标签预测，之后利用该子集对应的伪标签样本、前述随机分配后由人工标注得到的有标签样本、剩余的无标签样本，继续对之前半监督训练得到的学生模型进行半监督训练，得到新的学生模型。以此类推，直至利用和最后一个子集对应的伪标签样本、前述随机分配后由人工标注得到的有标签样本、剩余的无标签样本，对上一次有监督训练得到的学生模型进行半监督训练，得到二阶段学生模型。再利用二阶段学生模型的权重参数同步更新教师模型的权重参数。

在一些实施例中，为了增加样本的多样性，以使学生模型能够学习到更多的样本信息，从而提升学生模型的目标检测能力。可以在上述半监督师生训练的过程中，在不同的训练阶段重复使用的有标签样本进行调整，例如调整有标签样本图像的颜色，由于调整颜色对图像的特征影响较大，因此可以将颜色调整后对应的有标签样本称为有标注样本的强增强版本。还可以对不同训练阶段需要进行伪标签预测的无标签样本进行调整，例如将无标签样本图像进行旋转，由于旋转图像对图像的特征影响较小，因此可以将旋转后的无标签样本称为未标注样本的弱增强版本。还可以对不同训练阶段重复使用的无标签样本进行颜色调整，将这部分无标签样本称为未标注样本的强增强版本。然后在一些训练阶段利用调整后的有标签样本、各训练阶段对应的伪标签样本以及剩余的无标签样本，对各训练阶段对应的学生模型进行半监督训练。最终得到二阶段学生模型。

S704：有标签样本数量是否达到预设标注比例。如果是，则表明达到预设标注比例，进入S703继续进行半监督师生训练。否则表明未达到预设标注比例，进入S705，需要进行高价值样本筛选，对筛选出来的高价值样本进行人工标注后得到新的有标签样本，使参与半监督师生训练的有标签样本达到预设标注比例，从而使得训练完成后得到的学生模型的精度能够达到预设要求。

S705：高价值样本筛选。

也即服务器100利用二阶段学生模型的权重对教师模型的权重进行同步更新后，按照预设筛选规则，使用更新后的教师模型，从初始样本集中除了随机划分的有标签样本以外的其他无标签样本中筛选出有利于提高模型的目标检测能力的样本，然后对筛选出来的高价值样本进行人工标注，得到新的有标签样本。这部分新的有标签样本及前述随机分配后由人工标注得到的有标签样本的数量，和初始样本集样本数量的比值等于预设标注比例。从而使得服务器100可以利用预设标注比例的有标签样本和剩余的无标签样本再对二阶段学生模型进行半监督师生训练，得到完成训练的学生模型。利用完成训练的学生模型的权重参数对教师模型的权重参数进行更新，从而得到目标检测模型。

可以理解，上述步骤S701至步骤S705的执行顺序只是一种示意，在另一些实施例中，也可以采用其他执行顺序，还可以拆分或合并部分步骤，在此不做限定。

下面将对部署有通过本申请的技术方案训练得到的目标检测模型的自动驾驶汽车200的硬件结构进行介绍。如图8所示，自动驾驶汽车200包括主控CPU210、内存220、接口模块230、摄像头240、传感器模块250等。

其中，摄像头240可以用来采集自动驾驶汽车200周围环境的图像。传感器模块250可以包括距离传感器、加速度传感器、陀螺仪传感器等。接口模块230用来实现扩展自动驾驶汽车200的存储能力以及用于自动驾驶汽车200和其他电子设备进行通信等。主控CPU210用于通过目标检测模型对通过摄像头240采集的图像进行目标检测，从而根据目标检测结果规划自动驾驶路径。内存220用于存储实现目标检测模型的可执行程序，摄像头240采集的图像以及利用目标检测模型检测出来的目标数据等。

可以理解的是，以上图8所示的硬件结构并不构成对自动驾驶汽车200的具体限定。在本申请另一些实施例中，自动驾驶汽车200可以包括比图8所示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个模型训练方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得电子设备执行时实现可实现上述各个模型训练方法实施例中的步骤。

本申请实施例还提供了一种电子设备，该电子设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个模型训练方法实施例中的步骤。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(Digital Signal Processor，DSP)、微控制器、专用集成电路(Application Specific Integrated Circuit，ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、可擦除可编程只读存储器(Erasable Programmable Read OnlyMemory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。