CN114600117A

CN114600117A - 通过样本一致性评估的主动学习

Info

Publication number: CN114600117A
Application number: CN202080073812.2A
Authority: CN
Inventors: 张子钊; 托马斯·乔·菲斯特; 塞尔坎·奥马尔·阿里克; 高鸣飞
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-08-22
Filing date: 2020-08-21
Publication date: 2022-06-07
Also published as: JP2023126769A; KR20220047851A; JP7293498B2; US20230325676A1; US20210056417A1; JP2022545476A; WO2021035193A1; EP4018382A1

Abstract

一种主动学习的方法(400)包括获取未标记的训练样本集合(112U)，和对于每一个样本扰动样本以生成增强训练样本(112A)。方法包括使用机器学习模型(130)来生成两种样本的预测标签(134P)，并确定所述未标记的训练样本的不一致值(142)，不一致值(142)表示未标记的样本和增强训练样本的预测标签之间的差。方法包括基于所述不一致值对未标记的训练样本进行排序，以及对于从排序的样本中选择的阈值数量的样本(112U_T)获取地面真实标签(134G)。方法包括选择当前的标记的训练样本集合，其包括与对应的地面真实标签配对的每个选择的未标记的训练样本。方法包括使用当前的集合和未标记的训练样本的适当子集(112U_P)来训练机器学习模型。

Description

通过样本一致性评估的主动学习

技术领域

本公开涉及主动学习，例如使用样本一致性评估的主动学习。

背景技术

通常，监督机器学习模型需要大量标记的训练数据，以便准确地预测结果。然而，尽管获得大量未标记的数据常常是容易的，但是标记数据常常是非常困难的。也就是说，对大量的数据进行标记，即使不是完全不可能，往往也是极其昂贵的。因此，主动学习是一种流行的机器学习，它允许对未标记数据进行优先处理，以便仅在影响最大的数据上训练模型(即，最大程度地提高精确度)。通常情况下，主动学习算法首先在一小部分标记的数据子集上进行训练，然后主动询问教师，为选择的未标记的训练样本打上标签。选择未标记的训练样本的过程是一个活跃的研究领域。

发明内容

本公开的第一方面公开了一种通过样本一致性评估的主动学习方法。方法包括数据处理硬件获取未标记的训练样本集合。在多个主动学习周期的每一个的期间和对于所述未标记的训练样本集合中的每个未标记的训练样本，方法包括所述数据处理硬件扰动所述未标记的训练样本以生成增强训练样本。方法还包括，所述数据处理硬件使用机器学习模型来生成所述未标记的训练样本的预测标签和所述增强训练样本的预测标签，所述机器学习模型被配置为接收所述未标记的训练样本和所述增强训练样本作为输入，并所述数据处理硬件确定所述未标记的训练样本的不一致值。所述不一致值表示所述未标记的训练样本的所述预测标签与所述增强训练样本的所述预测标签之间的差。方法还包括所述数据处理硬件基于所述不一致值按降序对所述未标记的训练样本集合中的所述未标记的训练样本进行排序，并且对于从所述未标记的训练样本集合中的排序的所述未标记的训练样本中选择的阈值数量的未标记的训练样本中的每个未标记的训练样本，所述数据处理硬件获取地面真实标签，所述阈值数量的未标记的训练样本是从所述未标记的训练样本集合中的排序的未标记的训练样本中选择的。方法还包括所述数据处理硬件选择当前的标记的训练样本集合。所述当前的标记的训练样本集合包括从所述未标记的训练样本集合中的排序的所述未标记的训练样本中选择的所述阈值数量的未标记的训练样本中的、与对应获取的所述地面真实标签配对的每个未标记的训练样本，所述阈值数量的未标记的训练样本选自所述未标记的训练样本集合中的、与对应获取的地面真实标签配对的所述排序的未标记的训练样本。方法还包括所述数据处理硬件使用所述当前的标记的训练样本集合和所述未标记的训练样本集合中的未标记的训练样本的适当子集来训练所述机器学习模型。

本公开的实施方式包括以下可选特征的一个或多个。在一些实施方式中，所述未标记的训练样本的阈值数量小于所述未标记的训练样本集合的基数。所述阈值数量的未标记的训练样本中的每个未标记的训练样本的所述不一致值大于未从所述未标记的训练样本集合中的所述排序的未标记的训练样本中选择的每个未标记的训练样本的所述不一致值。

可选地，方法还包括，所述数据处理硬件通过从所述未标记的训练样本集合中去除所述阈值数量的未标记的训练样本来从所述未标记的训练样本集合中获取所述未标记的训练样本的适当子集。方法还包括所述数据处理硬件从所述未标记的训练样本集合中的所述排序的未标记的训练样本中选择第一M个未标记的训练样本作为所述阈值数量的未标记的训练样本。

在一些示例中，方法还包括，在初始主动学习周期期间，所述数据处理硬件从所述未标记的训练样本集合中随机选择未标记的训练样本的随机集合，所述数据处理硬件获取所述未标记的训练样本的随机集合中的每个未标记的训练样本的对应的地面真实标签。方法还包括所述数据处理硬件使用所述未标记的训练样本的随机集合和所述对应的地面真实标签来训练所述机器学习模型。该示例可以包括，在所述初始主动学习周期期间，所述数据处理硬件从所述未标记的训练样本集合中识别未标记的训练样本的候选集合。所述未标记的训练样本的候选集合的基数小于所述未标记的训练样本集合的基数。方法还包括所述数据处理硬件确定地面真实标签的分布和预测标签的分布之间的第一交叉熵，所述预测标签是使用所述机器学习模型为所述未标记的训练样本的候选集合中的所述未标记的训练样本生成的，以及所述数据处理硬件确定地面真实标签的分布和预测标签的分布之间的第二交叉熵，所述预测标签是使用所述机器学习模型为所述未标记的训练样本的候选集合的所述未标记的训练样本生成的。方法还包括所述数据处理硬件确定所述第一交叉熵是否大于或等于所述第二交叉熵，以及当所述第一交叉熵大于或等于所述第二交叉熵时，所述数据处理硬件选择所述未标记的训练样本的候选集合作为初始训练所述机器学习模型的开始大小。在一些实施方式中，从所述未标记的训练样本集合中识别所述未标记的训练样本的候选集合包括，确定所述未标记的训练样本集合中的每个未标记的训练样本的所述不一致值。

在一些实施方式中，方法还包括当所述第一交叉熵小于所述第二交叉熵时，所述数据处理硬件从所述未标记的训练样本集合中随机选择未标记的训练样本的扩展集合，所述数据处理硬件更新所述未标记的训练样本的候选集合，以包括从所述未标记的训练样本集合中随机选择的所述未标记的训练样本的扩展集合。方法还可以包括所述数据处理硬件通过从所述未标记的训练样本集合中去除所述未标记的训练样本的扩展集合中的每个未标记的训练样本来更新所述未标记的训练样本集合。在紧接着的主动学习周期期间，方法还包括所述数据处理硬件确定地面真实标签的分布和预测标签的分布之间的所述第一交叉熵，所述预测标签是使用所述机器学习模型为所述更新的未标记的训练样本的候选集合的所述未标记的训练样本生成的，和所述数据处理硬件确定所述地面真实标签的分布和预测标签的分布之间的所述第二交叉熵，所述预测标签是使用所述机器学习模型为所述更新的未标记的训练样本的候选集合的所述未标记的训练样本生成的。方法还包括所述数据处理硬件确定所述第一交叉熵是否大于或等于所述第二交叉熵。当所述第一交叉熵大于或等于所述第二交叉熵时，方法还包括所述数据处理硬件选择所述更新的所述未标记的训练样本的候选集合作为初始训练所述机器学习模型的开始大小。在一些示例中，所述机器学习模型包括卷积神经网络。

本公开的另一方面提供了数据处理硬件和与所述数据处理硬件通信的存储器硬件。所述存储器硬件存储指令，所述指令在所述数据处理硬件上执行时使所述数据处理硬件执行操作。操作包括获取未标记的训练样本集合。在多个主动学习周期的每一个期间和对于所述未标记的训练样本集合中的每个未标记的训练样本，操作包括扰动所述未标记的训练样本以生成增强训练样本。操作还包括，使用机器学习模型来生成所述未标记的训练样本的预测标签和所述增强训练样本的预测标签，所述机器学习模型被配置为接收所述未标记的训练样本和所述增强训练样本作为输入，并确定所述未标记的训练样本的不一致值。所述不一致值表示所述未标记的训练样本的所述预测标签与所述增强训练样本的所述预测标签之间的差。操作还包括基于所述不一致值按降序对所述未标记的训练样本集合中的所述未标记的训练样本进行排序，并且对于在阈值数量的未标记的训练样本中的每个未标记的训练样本，获取地面真实标签，所述阈值数量的未标记的训练样本是从所述未标记的训练样本集合中的排序的未标记的训练样本中选择的。操作包括选择当前的标记的训练样本集合。所述当前的标记的训练样本集合包括所述阈值数量的未标记的训练样本中的每一个未标记的训练样本，所述阈值数量的未标记的训练样本选自所述未标记的训练样本集合中的、与对应获取的地面真实标签配对的所述排序的未标记的训练样本。操作还包括使用所述当前的标记的训练样本集合和所述未标记的训练样本集合中的未标记的训练样本的适当子集来训练所述机器学习模型。

该方面包括以下可选特征的一个或多个。在一些实施方式中，所述未标记的训练样本的阈值数量小于所述未标记的训练样本集合的基数。所述阈值数量的未标记的训练样本中的每个未标记的训练样本的不一致值大于未从所述未标记的训练样本集合中的所述排序的未标记的训练样本中选择的每个未标记的训练样本的不一致值。

可选地，操作还包括通过从所述未标记的训练样本集合中去除所述阈值数量的未标记的训练样本来从所述未标记的训练样本的集合中获取所述未标记的训练样本的适当子集。操作还包括从所述未标记的训练样本集合中的所述排序的未标记的训练样本中选择第一M个未标记的训练样本作为所述阈值数量的未标记的训练样本。

在一些示例中，操作还包括在初始主动学习周期期间，从未标记的训练样本的集合中随机选择未标记的训练样本的随机集合，并获取与所述未标记的训练样本的随机集合中的每个未标记的训练样本的对应的地面真实标签。操作还包括使用所述未标记的训练样本的随机集合和所述对应的地面真实标签来训练所述机器学习模型。该示例可以包括，在所述初始主动学习周期期间，从所述未标记的训练样本集合中识别未标记的训练样本的候选集合。所述未标记的训练样本的候选集合的基数小于所述未标记的训练样本集合的基数。操作还包括确定地面真实标签的分布和预测标签的分布之间的第一交叉熵，所述预测标签是使用所述机器学习模型为所述未标记的训练样本的候选集合的所述未标记的训练样本生成的，以及确定地面真实标签的分布和预测标签的分布之间的第二交叉熵，所述预测标签是使用所述机器学习模型为所述未标记的训练样本的候选集合的所述未标记的训练样本生成的。操作还包括确定所述第一交叉熵是否大于或等于所述第二交叉熵，以及当所述第一交叉熵大于或等于所述第二交叉熵时，选择所述未标记的训练样本的候选集合作为初始训练所述机器学习模型的开始大小。在一些实施方式中，从所述未标记的训练样本集合中识别所述未标记的训练样本的候选集合包括，确定所述未标记的训练样本集合中的每个未标记的训练样本的所述不一致值。

在一些实施方式中，操作还包括当所述第一交叉熵小于所述第二交叉熵时，从所述未标记的训练样本集合中随机选择未标记的训练样本的扩展集合，并更新所述未标记的训练样本的候选集合，以包括从所述未标记的训练样本集合中随机选择的所述未标记的训练样本的扩展集合。操作还可以包括通过从所述未标记的训练样本集合中去除所述未标记的训练样本的扩展集合中的每个未标记的训练样本来更新所述未标记的训练样本集合。在紧接着的主动学习周期期间，操作还包括确定地面真实标签的分布和预测标签的分布之间的所述第一交叉熵，所述预测标签是使用所述机器学习模型为所述更新的未标记的训练样本的候选集合的所述未标记的训练样本生成的，和确定所述地面真实标签的分布和预测标签的分布之间的所述第二交叉熵，所述预测标签是使用所述机器学习模型为所述更新的未标记的训练样本的候选集合的所述未标记的训练样本生成的。操作还包括确定所述第一交叉熵是否大于或等于所述第二交叉熵。当所述第一交叉熵大于或等于所述第二交叉熵时，操作还包括选择所述更新的未标记的训练样本的候选集合作为初始训练所述机器学习模型的开始大小。在一些示例中，所述机器学习模型包括卷积神经网络。

本公开的一个或多个实现的细节在附图和以下描述中阐述。从说明书和附图以及从权利要求书中，其它方面，特征和优点将是显而易见的。

附图说明

图1是用于训练主动学习模型的示例系统的示意图。

图2是图1的系统的示例性部件的示意图。

图3A-3C是用于确定标记的训练样本的初始起始尺寸的组分的示意图。

图4是通过样本一致性评估的主动学习方法的操作的示例布置的流程图。

图5是可用于实施本文所述的系统和方法的示例性计算设备的示意图。

在各个附图中相同的附图标记表示相同的元件。

具体实施方式

随着大量数据的获取变得越来越便宜和容易，正通过使用对大量数据的深度学习方法的训练模型来实现机器学习的进步。然而，这提出了新的挑战，因为通常数据是没有标签的，这需要在使用监督学习或半监督学习模型之前进行标记。通常，训练数据由人工操作员标记。例如，当为利用图像数据帧进行物体检测的模型准备训练样本时，专家注释者(例如，受过训练的人)可以通过在行人周围画边界框来标记图像数据帧。当数据量庞大时，手动标记数据最多是昂贵的，最差是不可能的。

一种常见的数据标记问题的方法是主动学习。在主动学习中，允许模型主动地从一组未标记的训练样本中选择训练样本的子集，并且请求从“专家(oracle)”例如，专家注释者或可以任何其它可以准确地标记所选择的样本的实体(即，“地面真实(groundtruth)”标签)中标记子集。也就是说，主动学习模块在训练期间动态地提出查询，以主动地选择训练哪些样本。主动学习具有极大地减少标记数据的开销的潜能，同时用显著更少的标记训练样本增加精确度。

为了选择可用于改进目标模型的样本，选择方法通常依赖于目标模型的输出和/或中间特征来测量未标记样本。例如，一种方法可以使用输出的熵来测量不确定度。另一种方法可以确保所选择的样本涵盖很大的多样性范围。另一种方法可以使用预测的损失来尝试选择最有价值的样本。然而，当标记预算较少时，所有这些方法难以适用于卷积神经网络(CNN)，因为精确的CNN模型通常需要大量的标记的数据集。

本文的实施方式旨在主动学习模型训练器，在不引入附加标记成本的情况下训练模型(例如，CNN模型)。训练器使用未标记的数据来改善训练模型的质量，同时保持标记样本的数量较少。训练器是基于这样的假设，即，模型在其样本和相同样本的有意义失真版本之间的决定中应该是一致(即预测的一致性)。

参考图1，在一些实施方式中，示例系统100包括处理系统10。处理系统10可以是单个计算机、多个计算机、或具有固定或可缩放/弹性计算资源12(例如，数据处理硬件)和/或存储资源14(例如，存储器硬件)的分布式系统(例如，云环境)。处理系统10执行主动学习模型训练器110。模型训练器110训练目标模型130(例如，机器学习模型)以基于输入数据进行预测。例如，模型训练器110训练卷积神经网络(CNN)。模型训练器110在一组未标记的训练样本112，112U上训练目标模型130。未标记的训练样本指的是不包括任何注释或其它指示目标模型130的正确结果的数据，这与包括这种注释的标记数据相反。例如，目标模型130的标记数据被训练来转录音频数据，音频数据包括音频数据以及音频数据的相应精确转录。用于同一目标模型130的未标记数据将包括没有转录的音频数据。利用标记的数据，目标模型130可以基于训练样本进行预测，然后容易地将预测与用作参考值的标签进行比较，以确定预测的准确性。相反，这种反馈对于未标记的数据是不可用的。

未标记的训练样本112U可以代表目标模型130进行其预测所需的任何数据。例如，未标记的训练数据可以包括图像数据帧(例如，用于物体检测或分类等)、音频数据帧(例如，用于转录或语音识别等)、和/或文本(例如，用于自然语言分类等)。未标记的训练样本112U可存储在处理系统10上(例如，在存储器硬件14内)或经由网络或其它通信信道从另一实体接收。

模型训练器110包括样本扰动器(perturber)120。样本扰动器120接收未标记的训练样本集合112U中的每个未标记的训练样本112U，并扰动每个未标记的训练样本112U以产生相应的增强训练样本112，112A。也就是说，样本扰动器120对每个未标记的训练样本112U引入小但有意义的改动。例如，样本扰动器120以预定的或随机的数量增加或减少数值，以生成一对训练样本，包括原始的未标记的训练样本112U和相应的增强(即，扰动)训练样本112A。作为另一个示例，当未标记的训练样本112U包括图像数据帧时，样本扰动器120可以旋转图像，翻转图像，裁剪图像等。样品扰动器120也可以使用任何其它常规的扰动数据的装置。

如下面更详细讨论的，目标模型130(即，主动学习模型训练器110正在训练的机器学习模型)最初在一小组标记的训练样本112，112L和/或未标记的训练样本112U上训练。这快速地向目标模型130提供粗略的初始预测能力。最小训练的目标模型130为每个未标记的训练样本112U接收未标记的训练样本112U和相应的增强的训练样本112A。目标模型130使用未标记的训练样本112U生成预测标签132，132P_U。预测标签132P_U表示目标模型基于未标记的训练样本112U以及到模型训练到此为止的预测。目标模型130使用增强的训练样本112A生成另一预测标签132，132P_A。预测标签132P_A表示目标模型基于增强的训练样本112A以及模型训练到此为止的预测。注意，目标模型130通常不被配置为同时处理未标记的训练样本112U和增强的训练样本112A，而是顺序地(以任一顺序)处理它们，以首先用未标记的训练样本112U或增强的训练样本112A中的一个生成第一预测标签132P，其次用未标记的训练样本112U或增强的训练样本112A中的另一个生成第二预测标签132P。

主动学习模型训练器110包括不一致确定器140。不一致确定器140接收未标记的训练样本集合112U中的每一个未标记的训练样本112U的每一对样本112的预测132P_U和132P_A。不一致确定器140确定不一致值142，表示未标记的训练样本112U的预测标签132P_U和增强训练样本112A的预测标签132P_A之间的差。也就是说，当目标模型130收敛(converge)时，大的不一致值142表明未标记的训练样本112U产生大的无监督损失。相反，当目标模型130收敛时，小的不一致值142表明未标记的训练样本112U产生小的无监督损失。在一些示例中，预测标签132P_U，132P_A之间的差越大，相关的不一致值142越大。

样本选择器150接收与每个未标记的训练样本112U相关的不一致值142。样本选择器基于不一致值142按降序对未标记的训练样本112U进行排序，并从排序后的未标记的训练样本112U中选择当前的未标记的训练样本集合112U_T。也就是说，样本选择器150基于未标记的训练样本112U_T的相应的不一致值142来选择阈值数量的未标记的训练样本112U_T，以形成当前的未标记的训练样本集合112U_T。样本选择器150为每个未标记的训练样本112U_T获得地面真实标签132G。地面真实标签132G是由另一个源凭经验确定的标签。在一些实施方式中，专家160确定未标记的训练样本112U_T的地面真实标签132G。可选地，专家160是人类注释者或其它人类代理人。

样本选择器150可以将所选择的未标记的训练样本112U_T发送到专家160。专家160响应于接收到未标记的训练样本112U_T，为每个未标记的训练样本112U_T确定或以其它方式获得相关联的地面真实标签132G。未标记的训练样本112U_T与地面真实标签132G相结合，形成标记的训练样本112L，并且可以与其它标记的训练样本112L(例如，模型训练器110用于最初训练目标模型130的标记的训练样本112L)一起存储。也就是说，模型训练器110可以选择当前的标记的训练样本集合112L，包括所选的与相应的地面真实标签132G配对的未标记的训练样本110U_T。

模型训练器110使用当前标记的训练样本集合112L(即，所选择的未标记的训练样本112U_T和相应的地面真实标签132G)训练(例如，重新训练或微调)目标模型130。在一些实施方式中，模型训练器110使用当前标记的训练样本集合112L和来自未标记的训练样本集合112U的未标记的训练样本的适当子集112U_P来训练目标模型130。未标记的训练样本的适当子集112U_P可以包括不属于任何未标记的训练样本集合112U_T的一部分的每个未标记的训练样本112U(即，被选择来获得相应的地面真实标签132G的未标记的训练样本112U)。换句话说，模型训练器110可以通过从未标记的训练样本112U的集合中去除阈值数量的未标记的训练样本112U_T，来从未标记的训练样本112U的集合中获得未标记的训练样本的适当子集112U_P。

模型训练器110还可以在训练中包括任何先前标记的训练样本112L(即，来自初始标记或来自先前的活动学习周期)。因此，通过半监督学习，模型训练器110可以在所有标记的训练样本112L(即，除了任何先前标记的训练样本112L之外的当前标记的训练样本集合110L)和所有剩余的未标记的训练样本112U(即，未标记的训练样本集合112U减去所选择的未标记的训练样本112U_T)上训练目标模型130。也就是说，在一些示例中，主动学习模型训练器110使用所有未标记的训练样本112U和标记的训练样本112L来完全重新训练目标模型130。在其它示例中，主动学习模型训练器仅使用新获得的标记的训练样本112L来递增地重新训练目标模型130。如这里所使用的，训练目标模型130可以指从头开始完全重新训练目标模型130，或通过进行附加的训练(有或无参数改变，例如通过冻结一个或多个层的权重，调整学习速度等)来重新训练/微调目标模型130的某种形式。

模型训练器110可针对任何数目的主动学习周期重复该过程(即，扰动未标记的训练样本112U，确定不一致值142，选择未标记的训练样本112U_T，获得地面真实标签132G等)。例如，主动学习模型训练器110重复目标模型130的训练(并且随后增长标记的训练样本112L)，持续预定的循环次数，或者直到目标模型130达到阈值有效性、或者直到满足标记预算。以此方式，模型训练器110逐渐增加标记的训练样本112L的数目，直到样本的数目足以训练目标模型130为止。

现在参考图2，在一些示例中，在阈值数量的未标记的训练样本110U_T中的每个未标记的训练样本112U的不一致值142大于在未标记的训练样本112U的集合中未从分类的未标记的训练样本112U中选择的每个未标记的训练样本112U的不一致值142。在该示例中，示意图200示出不一致确定器140将不一致值142，142a-n从最不一致值142a(即，最高不一致值142)分类至最小不一致值142n(即，最低不一致值)。每个不一致值142具有对应的未标记的训练样本112U，112Ua-n。这里，最不一致的值142a对应于未标记的训练样本112Ua，而最小不一致的值142n对应于未标记的训练样本112Un。在该示例中，样本选择器150选择具有五个最不一致值142的五个未标记的训练样本112U，作为当前的未标记的训练样本集合112U_T。应当理解，五个仅仅是示例性的，并且样本选择器150可以选择任意数量的未标记的训练样本112U。因此，未标记的训练样本112U_T的阈值数量可以小于未标记的训练样本集合112U的基数(cardinality)。在一些实施方式中，样本选择器150从未标记的训练样本集合112U中排序的未标记的训练样本112U中选择第一M个数字(例如，5、10、50等)作为训练样本12U_T的阈值数量。

所选择的未标记的训练样本112U被传递到专家160以检索相应的地面真实标签132G。继续所示的例子，专家160为五个未标记的训练样本112U_T中的每一个确定相应的地面真实标签132G。模型训练器110现在可以使用这五个标记的训练样本112L(即，五个对应的未标记的训练样本112U和地面真实标签132G对)来训练、重新训练、或微调目标模型130。

现在参考图3A–C，在一些示例中，模型训练器110在初始主动学习周期(即，第一主动学习周期)期间提供未训练的目标模型130的初始训练。如示意图300a所示(图3A)，在一些实施方式中，初始集合选择器310从未标记的训练样本集合112U中随机选择未标记的训练样本的随机集合112U_R。初始集合选择器310还获得用于未标记的训练样本的随机集合112U_R中的每个未标记的训练样本112U_R的相应的地面真实标签132G_R。模型训练器110可以使用随机的未标记的训练样本集合112U_R和相应的地面真实标签132G_R(以形成标记的训练样本集合112L_R)来训练机器学习模型130。也就是说，在一些实施方式中，在目标模型130接收到任何训练之前，模型训练器110随机地选择一小组(相对于整个集合)的未标记的训练样本112U_R，并获得相应的地面真实标签132G_R，以提供目标模型130的初始训练。

因为未标记的训练样本112U_R的随机集合是随机的和小的，所以目标模型130的训练可能不充分。为了进一步细化标记的训练样本112L的起始集合以初始训练目标模型，模型训练器110可从未标记的训练样本集合112U(例如，50个样本，100个样本等)中识别候选的未标记候选训练样本集合112U_C。候选训练样本集合112U_C的基数可以小于未标记的训练样本集合112U的基数。例如，如图3B的示意图300b所示，初始集合选择器310可以基于来自目标模型130的预测标签132P_U从不一致确定器140接收不一致值142，并且基于每个未标记的训练样本112U的不一致值142选择候选的未标记训练样本集合112U_C。也就是说，模型训练器110通过为未标记的训练样本集合112U中的每个未标记的训练样本112U确定不一致值142，来识别候选的未标记训练样本集合112U_C。可选地，候选的未标记训练样本集合112U_C包括未标记的训练样本集合112U中的具有最高对应不一致值142的未标记的训练样本112U的一半。

在接收到相应的地面真实标签132G_C之后，初始集合选择器310可以确定在地面真实标签132G的分布和预测标签132P_U的分布之间的第一交叉熵320，预测标签132P_U是使用机器学习模型130为候选的未标记训练样本集合112U_C中的训练样本生成的。初始集合选择器310还可以确定地面真实标签132G的分布和预测标签132P_U的分布之间的第二交叉熵330，预测标签132P_U是由机器学习模型130为未标记的训练样本集合112U中的训练样本生成的。也就是说，第一交叉熵320是在候选集合112U_C的实际标签分布和候选集合112U_C的预测标签分布之间，而第二交叉熵330是在候选集合112U_C的与第一交叉熵320相同的实际标签分布和整个未标记的训练样本集合112U的预测标签分布之间。交叉熵通常可以被认为是计算两个分布之间的差。

现在参考图3C和决策树300c，在一些实施方式中，在步骤350，初始集合选择器310确定第一交叉熵320是否大于或等于第二交叉熵330。在这种情况下，候选集合112U_C的实际标签分布和预测标签分布之间的差大于或等于整个未标记的训练样本集合112U的实际标签分布和预测标签分布之间的差。当至少部分地基于最大不一致值142来选择候选集合112U_C时(即，模型训练器110确定未标记的训练样本集合112U中的每个未标记的训练样本112U的不一致值142)，模型训练器110选择模型130最不确定的未标记的训练样本112U(即，倾向于远离数据分布的样本112U)，从而指示更好的性能。

由于该指示，在步骤360，当第一交叉熵320大于或等于第二交叉熵330时，初始集合选择器310可以选择候选的未标记训练样本集合112U_C作为当前标记的训练样本集合112L的开始大小。在最开始训练目标模型130的情况下，模型训练器110可以如上所述的后续主动学习周期(图1和2)继续进行。

当第一交叉熵320小于第二交叉熵330(即，指示差的目标模型130性能)时，当前候选集合112U_C不足以初始训练目标模型130。在该示例中，在步骤370，初始集合选择器310从未标记的训练样本集合112U中随机选择扩展的训练样本集合112U_E。在步骤380，初始集合选择器310更新候选的未标记训练样本集合112U_C，以包括从未标记的训练样本集合112U中随机选择的扩展的训练样本集合112U_E。在一些示例中，初始集合选择器310通过从未标记的训练样本集合112U中去除扩展的训练样本集合112U_S中的每个训练样本来更新未标记的训练样本集合112U。这确保了未标记的训练样本112U不被复制。

在紧接着的后续主动学习周期(即，下一个主动学习周期)期间，在步骤390，初始集合选择器310可以利用更新的候选集合112U_C重复先前的每一个步骤。例如，初始集合选择器310确定地面真实标签132G的分布和预测标签132P的分布之间的第一交叉熵320，预测标签132P是使用机器学习模型130为更新的未标记的训练样本集合112U_C中的训练样本生成的。初始集合选择器310还确定地面真实标签132G的分布和预测标签132P的分布之间的第二交叉熵330，预测标签132P是使用机器学习模型130为更新的候选的未标记训练样本集合112U_C中的训练样本生成的。初始集合选择器310再次确定第一交叉熵320是否大于或等于第二交叉熵330。当第一交叉熵320大于或等于第二交叉熵330时，初始集合选择器选择更新的候选的未标记训练样本集合112U_C作为初始训练机器学习模型130的开始大小。当第一交叉熵320小于第二交叉熵330时，初始集合选择器310可以继续迭代地扩展候选集合112U_C，直到第一交叉熵320大于或等于第二交叉熵330(即表明目标模型130性能足够)。

图4是用于经由样本一致性评估进行主动学习的方法400的操作的示例性布置的流程图。在步骤402，方法400包括由数据处理硬件12获取未标记的训练样本集合112U。在多个主动学习周期的每一个期间，对于未标记的训练样本集合112U中的每一个未标记的训练样本112U，方法400在步骤404包括数据处理硬件12扰动未标记的训练样本112U以生成增强的训练样本112A。在步骤406，方法400包括数据处理硬件12使用机器学习模型130来生成未标记的训练样本112U的预测标签132P_U和增强训练样本112A的预测标签132P_A，机器学习模型130被配置为接收未标记的训练样本112U和增强训练样本112A作为输入。

在步骤408，方法400包括数据处理硬件12确定未标记的训练样本112U的不一致值142。不一致值142表示未标记的训练样本112U的预测标签132P_U和增强训练样本112A的预测标签132P_A之间的差。在步骤410，方法400包括数据处理硬件12基于不一致值142以降序对未标记的训练样本集合112U中的未标记的训练样本112U进行排序。

在步骤412，方法400包括数据处理硬件12为阈值数量的未标记的训练样本112U_T中的每个未标记的训练样本112U获取地面真实标签132G，所述阈值数量的未标记的训练样本112U_T是从未标记的训练样本集合112U中的排序的未标记的训练样本112U中选择的。在步骤414，方法400包括数据处理硬件12选择当前的标记的训练样本集合112L，当前的标记的训练样本集合112L包括在阈值数量的未标记的训练样本112U_T中的每个未标记的训练样本112U，所述阈值数量的未标记的训练样本112U_T是从与相应的所获得的地面真实标签132G配对的未标记的训练样本集合112U中的排序的未标记的训练样本112U中选择的。在步骤416，方法400包括数据处理硬件12使用当前的标记的训练样本集合112L和来自未标记的训练样本集合112U中的未标记的训练样本的适当子集112U_P来训练机器学习模型130。

因此，模型训练器110可以在不增加(且潜在地减少)总标记成本(例如，计算资源的花费，人工注释者时间的消耗等)的情况下，识别相对于其它未标记的训练样本112U的性能改进而具有高性能改进潜力的未标记的训练样本112U。模型训练器110还可以通过使用节省成本的方法来为初始或开始的标记的训练样本集合112L确定适当的大小，该方法避免了从大的标记的数据样本集合112L开始的开销，同时还确保了具有有限数量的标记的训练样本112L的最佳模型性能(即，与常规技术相比)。

图5是可用于实现本文档中描述的系统和方法的示例性计算设备500的示意图。计算设备500用于表示各种形式的数字计算机，例如膝上计算机，台式计算机，工作站，个人数字助理，服务器，刀片服务器，大型机和其它适当的计算机。这里所示的组件，它们的连接和关系以及它们的功能仅仅是示例性的，而不是要限制在本文件中描述和/或要求保护的本发明的实现。

计算设备500包括处理器510，存储器520，存储设备530，连接到存储器520和高速扩展端口550的高速接口/控制器540，以及连接到低速总线570和存储设备530的低速接口/控制器560。部件510，520，530，540，550和560中的每一个使用各种总线互连，并且可以适当地安装在公共母板上或以其它方式安装。处理器510可以处理用于在计算设备500内执行的指令，包括存储在存储器520中或存储设备530上的指令，以在外部输入/输出设备(例如耦合到高速接口540的显示器580)上显示图形用户界面(GUI)的图形信息。在其它实施方式中，可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器类型。此外，可以连接多个计算设备500，其中每个设备提供必要操作的部分(例如，作为服务器库，一组刀片服务器，或多处理器系统)。

存储器520在计算设备500内非暂态地存储信息。存储器520可以是计算机可读介质，易失性存储器单元或非易失性存储器单元。非暂态存储器520可以是用于临时或永久地存储由计算设备500使用的程序(例如，指令序列)或数据(例如，程序状态信息)的物理设备。非易失性存储器的实例包括但不限于，快闪存储器和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，例如启动程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)，动态随机存取存储器(DRAM)，静态随机存取存储器(SRAM)，相变存储器(PCM)以及磁盘或磁带。

存储设备530能够为计算设备500提供大容量存储。在一些实施方式中，存储设备530是计算机可读介质。在各种不同的实施方式中，存储设备530可以是软盘设备，硬盘设备，光盘设备，或磁带设备，闪存或其它类似的固态存储器设备，或设备阵列，包括存储区域网络中的设备或其它配置。在另外的实施方式中，计算机程序产品被有形地包含在信息载体中。计算机程序产品包含指令，指令在被执行时执行一个或多个方法，例如上述的那些方法。信息载体是计算机或机器可读介质，例如存储器520，存储设备530或处理器510上的存储器。

高速控制器540管理计算设备500的带宽密集操作，而低速控制器560管理较低的带宽密集操作。这种职责的分配仅是示例性的。在一些实施方式中，高速控制器540耦合到存储器520，显示器580(例如，通过图形处理器或加速器)以及高速扩展端口550，高速扩展端口550可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器560耦合到存储设备530和低速扩展端口590。可以包括各种通信端口(例如，USB，蓝牙，以太网，无线以太网)的低速扩展端口590可以例如通过网络适配器耦合到一个或多个输入/输出设备，例如键盘，定点设备，扫描仪，或联网设备，例如交换机或路由器。

计算设备500可以以多种不同的形式来实现，如图所示。例如，它可以被实现为标准服务器500a或者在一组这样的服务器500a中多次实现为膝上型计算机500b，或者实现为机架服务器系统500c的一部分。

在此描述的系统和技术的各种实施方式可以在数字电子和/或光学电路，集成电路，专门设计的ASIC(专用集成电路)，计算机硬件，固件，软件和/或其组合中实现。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实现，可编程系统包括至少一个可编程处理器，可编程处理器可以是专用的或通用的，被耦合以从存储系统，至少一个输入设备和至少一个输出设备接收数据和指令，以及向存储系统，至少一个输入设备和至少一个输出设备发送数据和指令。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可被称为“应用”，“app”或“程序”。示例应用包括但不限于系统诊断应用，系统管理应用，系统维护应用，词语处理应用，电子表格应用，消息传递应用，媒体流应用，社交网络应用和游戏应用。

这些计算机程序(也称为程序，软件，软件应用或代码)包括用于可编程处理器的机器指令，并且可以用高级过程和/或面向对象的编程语言和/或用汇编/机器语言来实现。如本文所用，术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂态计算机可读介质、设备和/或设备(例如，磁盘，光盘，存储器，可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器，也称为数据处理硬件执行，执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。例如，适于执行计算机程序的处理器包括通用和专用微处理器，以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或被可操作地耦合以从一个或多个大容量存储设备接收数据或向一个或多个大容量存储设备传送数据，所述大容量存储设备用于存储数据，例如磁盘，磁光盘或光盘。然而，计算机不必具有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质、和存储器设备，包括例如半导体存储器设备，例如EPROM，EEPROM和闪存设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或结合在专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面可以在具有显示设备的计算机上实现，所述显示设备例如CRT(阴极射线管)，LCD(液晶显示器)监视器，或者用于向用户显示信息的触摸屏，并且可选地还具有键盘和定点设备，例如鼠标或轨迹球，通过定点设备用户可以向计算机提供输入。也可以使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈、或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音，语音或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求向用户的客户端设备上的web浏览器发送网页。

已经描述了多种实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其它实施方式也在所附权利要求的范围内。

Claims

1.一种训练机器学习模型的方法(400)，其特征在于，所述方法(400)包括：

数据处理硬件(12)获取未标记的训练样本集合(112U)；

在多个主动学习周期的每一个的期间：

对于所述未标记的训练样本集合(112U)中的每个未标记的训练样本(112U)；

所述数据处理硬件(12)扰动所述未标记的训练样本(112U)以生成增强训练样本(112A)；

所述数据处理硬件(12)使用机器学习模型(130)来生成所述未标记的训练样本(112U)的预测标签(132P_U)和所述增强训练样本(112A)的预测标签(132P_A)，所述机器学习模型(130)被配置为接收所述未标记的训练样本(112U)和所述增强训练样本(112A)作为输入；以及

所述数据处理硬件(12)确定所述未标记的训练样本(112U)的不一致值(142)，所述不一致值(142)表示所述未标记的训练样本(112U)的所述预测标签(132P_U)与所述增强训练样本(112A)的所述预测标签(132P_A)之间的差；

所述数据处理硬件(12)基于所述不一致值(142)按降序对所述未标记的训练样本集合(112U)中的所述未标记的训练样本(112U)进行排序；

所述数据处理硬件(12)，对于从所述未标记的训练样本集合(112U)中的排序的所述未标记的训练样本(112U)中选择的阈值数量的未标记的训练样本(112U_T)中的每个未标记的训练样本(112U)，获取地面真实标签(134G)；

所述数据处理硬件(12)选择当前的标记的训练样本集合(112U)，所述当前的标记的训练样本集合包括从所述未标记的训练样本集合(112U)中的排序的所述未标记的训练样本(112U)中选择的所述阈值数量的未标记的训练样本(112U_T)中的、与对应获取的所述地面真实标签(134G)配对的每个未标记的训练样本(112U)；以及

所述数据处理硬件(12)使用所述当前的标记的训练样本集合(112U)和所述未标记的训练样本集合(112U)中的未标记的训练样本的适当子集(112U_P)来训练所述机器学习模型(130)。

2.如权利要求1所述的方法(400)，其特征在于，所述未标记的训练样本(112U_T)的阈值数量小于所述未标记的训练样本集合(112U)的基数。

3.如权利要求1或2所述的方法(400)，其特征在于，所述阈值数量的未标记的训练样本(112U_T)中的每个未标记的训练样本(112U)的所述不一致值(142)大于未从所述未标记的训练样本集合(112U)中的所述排序的未标记的训练样本(112U)中选择的每个未标记的训练样本(112U)的所述不一致值(142)。

4.如权利要求1-3中任一项所述的方法(400)，其特征在于，所述方法还包括，所述数据处理硬件(12)通过从所述未标记的训练样本集合(112U)中去除所述阈值数量的未标记的训练样本(112U_T)来从所述未标记的训练样本集合(112U)中获取所述未标记的训练样本的适当子集(112U_P)。

5.如权利要求1-4中任一项所述的方法(400)，其特征在于，所述方法还包括，所述数据处理硬件(12)从所述未标记的训练样本集合(112U)中的所述排序的未标记的训练样本(112U)中选择第一M个未标记的训练样本(112U)作为所述阈值数量的未标记的训练样本(112U_T)。

6.如权利要求1-4中任一项所述的方法(400)，其特征在于，所述方法还包括，在初始主动学习周期期间：

所述数据处理硬件(12)从所述未标记的训练样本集合(112U)中随机选择未标记的训练样本的随机集合(112U_R)；

所述数据处理硬件(12)获取所述未标记的训练样本的随机集合(112U_R)中的每个未标记的训练样本(112U)的对应的地面真实标签(134G)；以及

所述数据处理硬件(12)使用所述未标记的训练样本的随机集合(112U_R)和所述对应的地面真实标签(134G)来训练所述机器学习模型(130)。

7.如权利要求6所述的方法(400)，其特征在于，所述方法还包括，在所述初始主动学习周期期间：

所述数据处理硬件(12)从所述未标记的训练样本集合(112U)中识别未标记的训练样本的候选集合(112U_C)，其中，所述未标记的训练样本的候选集合(112U_C)的基数小于所述未标记的训练样本集合(112U)的基数；

所述数据处理硬件(12)确定地面真实标签的分布和预测标签的分布之间的第一交叉熵(320)，所述预测标签是使用所述机器学习模型(130)为所述未标记的训练样本的候选集合(112U_C)中的所述未标记的训练样本(112U)生成的；

所述数据处理硬件(12)确定地面真实标签的分布和预测标签的分布之间的第二交叉熵(330)，所述预测标签是使用所述机器学习模型(130)为所述未标记的训练样本的候选集合(112U_C)的所述未标记的训练样本(112U)生成的；

所述数据处理硬件(12)确定所述第一交叉熵(320)是否大于或等于所述第二交叉熵(330)；以及

当所述第一交叉熵(320)大于或等于所述第二交叉熵(330)时，所述数据处理硬件(12)选择所述未标记的训练样本的候选集合(112U_C)作为初始训练所述机器学习模型(130)的开始大小。

8.如权利要求7所述的方法(400)，其特征在于，从所述未标记的训练样本集合(112U)中识别所述未标记的训练样本的候选集合(112U_C)包括，确定所述未标记的训练样本集合(112U)中的每个未标记的训练样本(112U)的所述不一致值(142)。

9.如权利要求7所述的方法(400)，其特征在于，所述方法还包括，当所述第一交叉熵(320)小于所述第二交叉熵(330)时：

所述数据处理硬件(12)从所述未标记的训练样本集合(112U)中随机选择未标记的训练样本的扩展集合；

所述数据处理硬件(12)更新所述未标记的训练样本的候选集合(112U_C)，以包括从所述未标记的训练样本集合(112U)中随机选择的所述未标记的训练样本的扩展集合(112U)；

所述数据处理硬件(12)通过从所述未标记的训练样本集合(112U)中去除来自所述未标记的训练样本的扩展集合(112U)的每个未标记的训练样本(112U)来更新所述未标记的训练样本集合(112U)；以及

在紧接着的主动学习周期期间：

所述数据处理硬件(12)确定地面真实标签的分布和预测标签的分布之间的所述第一交叉熵(320)，所述预测标签是使用所述机器学习模型(130)为更新的所述未标记的训练样本的候选集合(112U_C)中的所述未标记的训练样本(112U)生成的；

所述数据处理硬件(12)确定所述地面真实标签的分布和预测标签的分布之间的所述第二交叉熵(330)，所述预测标签是使用所述机器学习模型(130)为更新的所述未标记的训练样本的候选集合(112U_C)中的所述未标记的训练样本(112U)生成的；

当所述第一交叉熵(320)大于或等于所述第二交叉熵(330)时，所述数据处理硬件(12)选择更新的所述未标记的训练样本的候选集合(112U_C)作为初始训练所述机器学习模型(130)的开始大小。

10.如权利要求1-9中任一项所述的方法(400)，其特征在于，所述机器学习模型(130)包括卷积神经网络。

11.一种系统(100)，其特征在于，所述系统包括：

数据处理硬件(12)，和

与所述数据处理硬件(12)通信的存储器硬件(14)，所述存储器硬件(14)存储指令，所述指令在所述数据处理硬件(12)上执行时使所述数据处理硬件(12)执行以下操作：

获取未标记的训练样本集合(112U)；

在多个主动学习周期的每一个期间：

扰动所述未标记的训练样本(112U)以生成增强训练样本(112A)；

使用机器学习模型(130)来生成所述未标记的训练样本(112U)的预测标签(132P_U)和所述增强训练样本(112A)的预测标签(132P_A)，所述机器学习模型(130)被配置为接收所述未标记的训练样本(112U)和所述增强训练样本(112A)作为输入；以及

确定所述未标记的训练样本(112U)的不一致值(142)，所述不一致值(142)表示所述未标记的训练样本(112U)的所述预测标签(132P_U)与所述增强训练样本(112A)的所述预测标签(132P_A)之间的差；

基于所述不一致值(142)按降序对所述未标记的训练样本集合(112U)中的所述未标记的训练样本(112U)进行排序；

对于从所述未标记的训练样本集合(112U)中的排序的所述未标记的训练样本(112U)中选择的阈值数量的未标记的训练样本(112U_T)中的每个未标记的训练样本(112U)，获取地面真实标签(134G)；

选择当前的标记的训练样本集合(112U)，所述当前的标记的训练样本集合包括从所述未标记的训练样本集合(112U)中的排序的所述未标记的训练样本(112U)中选择的所述阈值数量的未标记的训练样本(112U_T)中的、与对应获取的地面真实标签(134G)配对的每个未标记的训练样本(112U)；以及

使用所述当前的标记的训练样本集合(112U)和所述未标记的训练样本集合(112U)中的未标记的训练样本的适当子集(112U_P)来训练所述机器学习模型(130)。

12.如权利要求11所述的系统(100)，其特征在于，所述未标记的训练样本(112U_T)的阈值数量小于所述未标记的训练样本集合(112U)的基数。

13.如权利要求11或12所述的系统(100)，其特征在于，所述阈值数量的未标记的训练样本(112U_T)中的每个未标记的训练样本(112U)的所述不一致值(142)大于未从所述未标记的训练样本集合(112U)中的所述排序的未标记的训练样本(112U)中选择的每个未标记的训练样本(112U)的所述不一致值(142)。

14.如权利要求11-13中任一项所述的系统(100)，其特征在于，所述操作还包括通过从所述未标记的训练样本集合(112U)中去除所述阈值数量的未标记的训练样本(112U_T)来从所述未标记的训练样本集合(112U)中获取所述未标记的训练样本的适当子集(112U_P)。

15.如权利要求11-14中任一项所述的系统(100)，其特征在于，所述操作还包括从所述未标记的训练样本集合(112U)中的所述排序的未标记的训练样本(112U)中选择第一M个未标记的训练样本(112U)作为所述阈值数量的未标记的训练样本(112U_T)。

16.如权利要求11-15中任一项所述的系统(100)，其特征在于，所述操作还包括在初始主动学习周期期间：

从所述未标记的训练样本集合(112U)中随机选择未标记的训练样本的随机集合(112U_R)；

获取所述未标记的训练样本的随机集合(112U_R)中的每个未标记的训练样本(112U)的对应的地面真实标签(134G)；以及

使用所述未标记的训练样本的随机集合(112U_R)和所述对应的地面真实标签(134G)来训练所述机器学习模型(130)。

17.如权利要求16所述的系统(100)，其特征在于，所述操作还包括在所述初始主动学习周期期间：

从所述未标记的训练样本集合(112U)中识别未标记的训练样本的候选集合(112U_C)，其中，所述未标记的训练样本的候选集合(112U_C)的基数小于所述未标记的训练样本集合(112U)的基数；

确定地面真实标签的分布和预测标签的分布之间的第一交叉熵(320)，所述预测标签是使用所述机器学习模型(130)为所述未标记的训练样本的候选集合(112U_C)中的所述未标记的训练样本(112U)生成的；

确定地面真实标签的分布和预测标签的分布之间的第二交叉熵(330)，所述预测标签是使用所述机器学习模型(130)为所述未标记的训练样本集合(112U_C)的所述未标记的训练样本(112U)生成的；

确定所述第一交叉熵(320)是否大于或等于所述第二交叉熵(330)；以及

当所述第一交叉熵(320)大于或等于所述第二交叉熵(330)时，选择所述未标记的训练样本的候选集合(112U_C)作为初始训练所述机器学习模型(130)的开始大小。

18.如权利要求17所述的系统(100)，其特征在于，从所述未标记的训练样本集合(112U)中识别所述未标记的训练样本的候选集合(112U_C)包括，确定所述未标记的训练样本集合(112U)中的每个未标记的训练样本(112U)的所述不一致值(142)。

19.如权利要求17所述的系统(100)，其特征在于，所述操作还包括，当所述第一交叉熵(320)小于所述第二交叉熵(330)时：

从所述未标记的训练样本集合(112U)中随机选择未标记的训练样本的扩展集合；

更新所述未标记的训练样本的候选集合(112U_C)，以包括从所述未标记的训练样本集合(112U)中随机选择的所述未标记的训练样本的扩展集合(112U)；

通过从所述未标记的训练样本集合(112U)中去除来自所述未标记的训练样本的扩展集合(112U)中的每个未标记的训练样本(112U)来更新所述未标记的训练样本集合(112U)；以及

在紧接着的主动学习周期期间：

确定地面真实标签的分布和预测标签的分布之间的所述第一交叉熵(320)，所述预测标签是使用所述机器学习模型(130)为更新的所述未标记的训练样本的候选集合(112U_C)中的所述未标记的训练样本(112U)生成的；

确定所述地面真实标签的分布和预测标签的分布之间的所述第二交叉熵(330)，所述预测标签是使用所述机器学习模型(130)为更新的所述未标记的训练样本的候选集合(112U_C)中的所述未标记的训练样本(112U)生成的；

当所述第一交叉熵(320)大于或等于所述第二交叉熵(330)时，选择更新的所述未标记的训练样本的候选集合(112U_C)作为初始训练所述机器学习模型(130)的开始大小。

20.如权利要求11-19中任一项所述的系统(100)，其特征在于，所述机器学习模型(130)包括卷积神经网络。