CN114424210A

CN114424210A - 存在标签噪声情况下的鲁棒训练

Info

Publication number: CN114424210A
Application number: CN202080065860.7A
Authority: CN
Inventors: 张子钊; 赛尔坎·奥默·阿里克; 托马斯·乔恩·菲斯特; 张晗
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-20
Filing date: 2020-09-19
Publication date: 2022-04-29
Also published as: JP2023134499A; JP2022548952A; EP4032026A1; US20210089964A1; JP7303377B2; US20230351192A1; KR20220062065A; WO2021055904A1

Abstract

一种用于训练模型(150)的方法(500)包括，获得标记训练样本(112G)的集合，每个标记训练样本(112G)与给定标签(116G)相关联。对于每个标记训练样本，该方法包括，生成伪标签(116P)以及估计指示给定标签的精确度的标记训练样本的权重(132)。该方法还包括，确定标记训练样本的权重是否满足权重阈值(142)。当标记训练样本的权重满足权重阈值时，该方法包括，将标记训练样本添加到干净标记训练样本(112C)的集合。否则，该方法包括，将标记训练样本添加到错误标记训练样本(112M)的集合。该方法包括，使用对应的给定标签的干净标记训练样本的集合和使用对应的伪标签的错误标记训练样本的集合来训练模型。

Description

存在标签噪声情况下的鲁棒训练

技术领域

本公开涉及存在标签噪声(label noise)情况下对模型的鲁棒训练(robusttraining)。

背景技术

训练深度神经网络通常需要大规模的标记数据。然而，在实践中获取用于大规模数据集的清洁标签是非常有挑战性和昂贵的，特别是在标记成本高的数据域中，诸如保健。深度神经网络也具有高记忆能力。虽然许多训练技术试图正则化神经网络并且防止噪声标签入侵，但是当噪声标签变得突出时，神经网络不可避免地拟合(fit into)噪声标记的数据。

通常，小的可信训练数据集通常是可获取的。实际的现实设置是基于给定的小可信集以廉价和不可信的方式(例如，众包、网页搜索、廉价标记实践等)来增加训练数据的大小。如果该设置可以显示出明显的益处，则它可以显著改变机器学习实践。然而，为了增加训练数据的大小，许多方法仍然需要大量的可信数据以使得神经网络很好地泛化(generalize)。因此，小可信数据集的朴素使用(naive usage)可能导致快速过拟合(overfitting)，并且最终导致负面影响。

发明内容

本公开的一个方面提供了一种用于存在标签噪声情况下对模型的鲁棒训练的方法。所述方法包括，在数据处理硬件处获得标记训练样本的集合。每个标记训练样本与给定标签相关联。所述方法还包括，在多个训练迭代的每个训练迭代期间，对于所述标记训练样本的集合中的每个标记训练样本，由所述数据处理硬件生成用于所述标记训练样本的伪标签。所述方法还包括，由所述数据处理硬件估计指示所述给定标签的精确度的所述标记训练样本的权重，以及由所述数据处理硬件确定所述标记训练样本的所述权重是否满足权重阈值。所述方法还包括，当所述标记训练样本的所述权重满足所述权重阈值时，由所述数据处理硬件将所述标记训练样本添加到干净标记训练样本的集合。所述方法还包括，当所述标记训练样本的所述权重不满足所述权重阈值时，由所述数据处理硬件将所述标记训练样本添加到错误标记训练样本的集合。所述方法还包括，由所述数据处理硬件使用对应的给定标签的所述干净标记训练样本的集合和使用对应的伪标签的所述错误标记训练样本的集合来训练所述机器学习模型。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，生成用于所述标记训练样本的所述伪标签包括，基于所述标记训练样本来生成多个增强训练样本，并且对于每个增强训练样本，使用所述机器学习模型来生成预测标签。该实施方式还包括，对为所述多个增强训练样本中的每个增强训练样本生成的每个预测标签进行平均，以生成用于对应的所述标记训练样本的所述伪标签。

在一些示例中，估计所述标记训练样本的所述权重包括，确定所述标记训练样本的最优权重的在线近似。确定所述标记训练样本的所述最优权重的所述在线近似可以包括，使用随机梯度下降优化。可选地，所述最优权重最小化所述机器学习模型的训练损失。

在一些实施方式中，训练所述机器学习模型包括，获得可信训练样本的集合。每个可信训练样本与可信标签相关联。该实施方式还包括，使用所述可信训练样本的集合和所述标记训练样本的集合来生成凸组合。生成所述凸组合可以包括，将成对混合应用于所述可信训练样本的集合和所述标记训练样本的集合。训练所述机器学习模型可以进一步包括，使用对应的给定标签基于所述干净标记训练样本的集合来确定第一损失，使用对应的伪标签基于所述错误标记训练样本的集合来确定第二损失，基于所述可信训练样本的集合的所述凸组合来确定第三损失，基于所述标记训练样本的集合的所述凸组合来确定第四损失，以及基于所述标记训练样本的集合的所述给定标签与所述标记训练样本的集合的所述伪标签之间的Kullback-Leibler散度来确定第五损失。训练所述机器学习模型还可以进一步包括，基于所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失来确定总损失。在一些示例中，所述第三损失和所述第四损失是softmax交叉熵损失。所述标记训练样本的集合中的每个标记训练样本是图像，并且所述给定标签可以是所述图像的文本描述符。

本公开的另一方面提供了一种用于存在标签噪声情况下训练模型的系统。所述系统包括数据处理硬件以及与所述数据处理硬件进行通信的存储器硬件。所述存储器硬件存储指令，当在所述数据处理硬件上执行所述指令时，所述指令使得所述数据处理硬件进行操作。所述操作包括，获得标记训练样本的集合。每个标记训练样本与给定标签相关联。所述操作还包括，在多个训练迭代的每个训练迭代期间，对于所述标记训练样本的集合中的每个标记训练样本，生成用于所述标记训练样本的伪标签。所述操作还包括，估计指示所述给定标签的精确度的所述标记训练样本的权重，以及确定所述标记训练样本的所述权重是否满足权重阈值。所述操作还包括，当所述标记训练样本的所述权重满足所述权重阈值时，将所述标记训练样本添加到干净标记训练样本的集合。所述操作还包括，当所述标记训练样本的所述权重不满足所述权重阈值时，将所述标记训练样本添加到错误标记训练样本的集合。所述操作还包括，使用对应的给定标签的所述干净标记训练样本的集合和使用对应的伪标签的所述错误标记训练样本的集合来训练机器学习模型。

该方面可以包括以下可选特征中的一个或多个。在一些实施方式中，生成用于所述标记训练样本的所述伪标签包括，基于所述标记训练样本来生成多个增强训练样本，并且对于每个增强训练样本，使用所述机器学习模型来生成预测标签。该实施方式还包括，对为所述多个增强训练样本中的每个增强训练样本生成的每个预测标签进行平均，以生成用于对应的所述标记训练样本的所述伪标签。

在下面的附图和说明书中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图，以及根据权利要求书，其它方面、特征和优势将是显而易见的。

附图说明

图1是用于使用噪声训练样本来训练模型的示例系统的示意图。

图2是图1的系统的伪标签生成器的示例组件的示意图。

图3是图1的系统的附加示例组件的示意图。

图4是用于训练目标模型的算法的示意图。

图5是存在标签噪声情况下的鲁棒训练的方法的操作的示例布置的流程图。

图6是可以用于实施本文中描述的系统和方法的示例计算设备的示意图。

各个附图中相同的附图标记指示相同的元素。

具体实施方式

对现代深度神经网络进行高度精确的训练通常需要大量的标记训练数据。然而，获得高质量的标记训练数据(例如，经由人类注释)的过程经常是有挑战性和昂贵的。因为获取具有噪声(即，不精确的标签)的训练数据通常要便宜得多，所以用于从具有噪声标签的数据集中训练神经网络的方法(例如，松散控制的过程、众包、网页搜索、文本提取等)是研究的活跃领域。然而，因为许多深度神经网络具有高记忆能力，所以噪声标签可能变得突出并且导致过拟合。

常规技术主要考虑使用相同标记技术来获取整个训练数据集的设置。然而，通常有利的是用包含高度可信和干净标签的较小数据集来补充主要训练集。即使当主要训练集极度有噪声时，较小的数据集也可以帮助模型显示出高鲁棒性。

本文中的实施方式指向一种模型训练器，该模型训练器提供具有噪声标签的鲁棒神经网络训练。模型训练器实施三个主要策略：隔离、升级和指导(IEG)。首先，模型训练器通过重新加权训练样本来隔离噪声和清晰标记的训练数据，以防止错误标记的数据误导神经网络训练。接下来，模型训练器经由伪标签从错误标记的数据中升级监督，以利用错误标记的数据内的信息。最后，模型训练器使用具有强正则化的小可信训练数据集来指导训练，以防止过拟合。

因此，模型训练器实施基于元学习的重新加权和重新标记目标，以同时学习加权每数据重要性，并且使用伪标签作为给定标签的替代来逐步升级训练数据的监督损失。模型训练器使用标签估计目标来用作元重新标记的初始化，并且从错误标记的数据中升级监督。无监督正则化目标增强了标签估计并且改善了总体表示学习。

参考图1，在一些实施方式中，示例系统100包括处理系统10。处理系统10可以是单个计算机、多个计算机或分布式系统(例如，云环境)，该分布式系统具有固定或可伸缩/弹性的计算资源12(例如，数据处理硬件)和/或存储资源14(例如，存储器硬件)。处理系统10执行模型训练器110。模型训练器110训练目标模型150(例如，深度神经网络(DNN))，以基于输入数据进行预测。例如，模型训练器110训练卷积神经网络(CNN)。模型训练器110在标记训练样本112,112G的集合上训练目标模型150。标记训练样本包括训练数据和用于该训练数据的标签。标签包括用于目标模型150的正确结果的注释或其它指示。相反，未标记训练样本仅包括训练数据而没有对应的标签。

例如，用于被训练来转录音频数据的模型的标记数据包括该音频数据以及该音频数据的对应转录。用于同一目标模型150的未标记数据将包括音频数据而没有转录。利用标记数据，目标模型150可以基于训练样本进行预测，然后将该预测与用作地面真实的标签进行比较，以确定该预测的精确性。因此，每个标记训练样本112G包括训练数据114G和相关联的给定标签116G。

标记训练样本112G可以代表目标模型150进行其预测所需的任何数据。例如，训练数据114G可以包括图像数据帧(例如，用于对象检测、分类等)，音频数据帧(例如，用于转录、语音识别等)，和/或文本(例如，用于自然语言分类等)。在一些实施方式中，训练样本112G的集合的每个训练样本112G是图像，并且给定标签116G是该图像的文本描述符。标记训练样本112G可以存储在处理系统10上(例如，在存储器硬件14内)或者经由网络或其它通信通道从另一实体接收。模型训练器110可以分批地(即，针对训练的每个迭代的不同批次)从训练样本112G的集合中选择标记训练样本112G。

模型训练器110包括伪标签生成器210。在多个训练迭代的每个训练迭代期间，并且对于标记训练样本112G的集合中的每个训练样本112G，伪标签生成器210生成用于对应的标记训练样本112G的伪标签116P。伪标签116P表示训练样本112G与由伪标签生成器210生成的伪标签116P的重新标记。

现在参考图2，在一些实施方式中，伪标签生成器210包括样本增强器220和样本平均计算器230。当伪标签生成器210生成用于训练样本112G的伪标签116P时，样本增强器220基于标记训练样本112G生成多个增强训练样本112A,112Aa-n。样本增强器220通过向每个增强训练样本112A的输入训练样本112G引入不同的变化来生成增强训练样本112A。例如，样本增强器220将值增加或减少预定量或随机量，以从标记训练样本112G中生成增强训练样本112A。作为另一示例，当标记训练样本112G包括图像数据帧时，样本增强器220可以旋转图像、翻转图像、裁剪图像等。样本增强器220也可以使用增强或扰动数据的任何其它常规手段。

为了向增强训练样本112A添加标签，在一些示例中，伪标签生成器210使用目标模型150(即，机器学习模型)为每个增强训练样本112A生成预测标签222,220a-n。样本平均计算器230可以对由目标模型150为每个增强训练样本112A生成的每个预测标签222进行平均，以生成用于输入标签训练样本112G的伪标签116P。也就是说，在一些实施方式中，对于给定标记训练样本112G，伪标签生成器210生成多个增强训练样本112A，为每个增强训练样本112A生成预测标签222，并且对每个生成的增强训练样本112A的预测标签222进行平均，以为对应的标记训练样本112G生成伪标签116P。

返回参考图1，模型训练器110还包括权重估计器130。权重估计器130在每个训练迭代期间为训练样本112G的集合中的每个训练样本112G估计训练样本112G的权重132。训练样本112G的权重132指示标记训练样本112G的给定标签116G的精确度。例如，较高权重指示精确给定标签116G的较大概率。因此，权重估计器130确定标记训练样本112G被错误标记的可能性。

在一些示例中，权重估计器130基于由目标模型150从标记训练样本112G和来自可信训练样本112T的集合的可信训练样本112T中做出的预测来确定权重132。模型训练器110假定可信样本112T的可信标签116T是高质量和/或干净的。也就是说，可信标签116T是精确的。模型训练器110可以通过为每个标记训练样本112G确定最优权重132来将权重132当作可学习参数，使得经训练的目标模型150在可信训练样本112T的集合上获得最佳性能。

因为确定权重132在计算上可能是昂贵的(因为每个更新步骤需要训练目标模型150直到收敛)，可选地，权重估计器130通过确定标记训练样本112G的最优权重132的在线近似来估计权重132。在线近似可以包括使用随机梯度下降优化。在一些实施方式中，最优权重132最小化目标模型150的训练损失。也就是说，最优权重132是导致目标模型150的最低训练损失的权重。模型训练器110可以基于具有二阶导数的反向传播来优化权重132。

样本分割器140接收每个训练样本112G和相关联的权重132以及相关联的伪标签116P。样本分割器140包括权重阈值142。对于每个标记训练样本112G，样本分割器140确定标记训练样本112G的权重132是否满足权重阈值142。例如，样本分割器140确定权重132是否超过权重阈值142。

当标记训练样本112G的权重132满足权重阈值142时，样本分割器140将训练样本112G添加到干净标记训练样本112C的集合。干净标记训练样本112C包括训练数据114和干净标签116C(即，给定标签116G由样本分割器140确定是干净的)。当标记训练样本112G的权重132不满足权重阈值142时，样本分割器140将标记训练样本112G添加到错误标记训练样本112M的集合。因此，可能的错误标记训练样本112G与可能的干净标记训练样本112G隔离，以从错误标记数据中升级监督。

当噪声比高时(即，许多标记训练样本112G是有噪声的)，由模型训练器基于元优化的重新加权和重新标记有效地防止了误导优化(即，大多数标记训练样本112G将具有零或接近于零的权重132)。然而，错误标记训练样本112M仍然可以提供有价值的训练数据。因此，为了避免潜在地丢弃大量数据，错误标记训练样本112M包括训练数据114，以及，代替给定标签116G，相关联的伪标签116P。也就是说，对于错误标记训练样本112M，伪标签116P代替给定标签116G。

在一些示例中，模型训练器110使用对应的给定标签116G的干净标记训练样本112C的集合和使用对应的伪标签116P的错误标记训练样本112M的集合来训练目标模型150。可以使用重复上述步骤中的一些或全部步骤的任何数量的训练迭代来递增地训练目标模型150。

现在参考图3，在一些实施方式中，模型训练器110包括凸组合生成器310。凸组合生成器310获得包括训练数据114和相关联的可信标签116T的可信训练样本112T的集合。凸组合生成器310生成用于训练目标模型150的凸组合312。在一些示例中，凸组合生成器310将成对混合应用于可信训练样本112T的集合和标记训练样本112G的集合。混合正则化允许模型训练器110利用来自可信训练样本112T的可信信息，而不用担心过拟合。混合正则化使用凸组合形式的训练样本112G,112T和混合因子来构造额外的监督损失。

在一些示例中，模型训练器110包括损失计算器320。损失计算器320使用对应的给定标签116G基于训练样本112C的干净标记集合来确定第一损失322,322a。损失计算器320可以使用对应的伪标签116P基于训练样本112M的错误标记集合来确定第二损失322b。损失计算器320可以基于可信训练样本112T的集合的凸组合310a来确定第三损失322c，并且基于标记训练样本112G的集合的凸组合310b来确定第四损失322d。在一些实施方式中，损失计算器320基于标记训练样本112G的集合的给定标签116G与标记训练样本112G的集合的伪标签116P之间的Kullback-Leibler(KL)散度来确定第五损失322e。KL散度损失322e通过减少增强训练样本112A的争议来锐化伪标签116P的生成。这是因为理想的伪标签116P应该尽可能接近精确标签。当对于增强训练样本112A的预测彼此有争议时(例如，训练数据114中的小变化导致预测中的大变化)，来自伪标签116P的贡献不鼓励目标模型150具有判别力(discriminative)。因此，KL散度损失322e有助于实施伪标签116P的一致性。

损失计算器320可以基于第一损失322a、第二损失322b、第三损失322c、第四损失322d和第五损失322e中的一个或多个来确定总损失330。在一些示例中，损失322a-e中的一个或多个(即，第三损失322c和第四损失322d)是softmax交叉熵损失。基于总损失330，损失计算器320更新目标模型150的模型参数340。损失计算器可以基于总损失330应用一步随机梯度来确定更新的模型参数340。

现在参考图4，在一些实施方式中，模型训练器110实施算法400以训练目标模型150。这里，模型训练器接受标记训练样本112G(即，D_u)和可信训练样本112T(即，D_p)作为输入。对于每个训练迭代(即，时间步长t)，模型训练器110更新目标模型150的模型参数340。使用算法400，模型训练器110通过在步骤1生成增强训练样本112A并且在步骤2估计或生成伪标签116P来训练目标模型150。在步骤3，模型训练器110确定最优权重132和/或更新权重估计器130(即，λ)。在步骤4，模型训练器110将标记训练样本112G的集合划分为干净标记训练样本112C的集合和错误标记训练样本112M的集合。在步骤5，模型训练器计算混合凸组合312。在步骤6，模型训练器110确定总损失330，并且在步骤6，进行一步随机梯度以获得用于下一训练迭代的更新的模型参数340。在一些示例中，模型训练器110在一步随机梯度优化期间使用动量值来确定精确的动量更新。

图5是用于存在标签噪声情况下的鲁棒训练的方法500的操作的示例布置的流程图。在操作502，方法500包括，在数据处理硬件12处获得标记训练样本112G的集合。每个标记训练样本112G与给定标签116G相关联。在操作504，方法500包括，在多个训练迭代的每个训练迭代期间，对于标记训练样本112G的集合中的每个标记训练样本112G，由数据处理硬件12生成用于标记训练样本112G的伪标签116P。在操作506，方法500包括，由数据处理硬件12估计指示给定标签116G的精确度的标记训练样本112G的权重132。

在操作508，方法500包括，由数据处理硬件12确定标记训练样本112G的权重132是否满足权重阈值142。在操作510，方法500包括，当标记训练样本111G的权重132满足权重阈值142时，由数据处理硬件12将标记训练样本112G添加到干净标记训练样本112C的集合。在操作512，方法500包括，当标记训练样本112G的权重132不满足权重阈值142时，由数据处理硬件12将标记训练样本112G添加到错误标记训练样本112M的集合。在操作514，方法500包括，由数据处理硬件12使用对应的给定标签116G的干净标记训练样本112C的集合和使用对应的伪标签116P的错误标记训练样本112M的集合来训练机器学习模型150。

图6是可以用于实施本文档中描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如是膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其它适当的计算机。本文示出的组件，它们的连接和关系以及它们的功能仅意味着是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640、以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610,620,630,640,650和660中的每一个使用各种总线来互连，并且可以被安装在通用主板上或以其它适当的方式来安装。处理器610可以处理用于在计算设备600内执行的指令，包括在存储器620中或存储设备630上存储的指令，以在外部输入/输出设备上显示图形用户界面(GUI)的图形信息，该外部输入/输出设备诸如是被耦接到高速接口640的显示器680。在其它实施方式中，多个处理器和/或多个总线可以适当地与多个存储器和存储器类型一起被使用。而且，可以连接多个计算设备600，其中，每个设备提供必要操作的部分(例如，作为服务器阵列(server bank)、一组刀片服务器、或多处理器系统)。

存储器620在计算设备600内非暂时性地存储信息。存储器620可以是计算机可读介质、易失性存储器单元或非易失性存储器单元。非暂时性存储器620可以是用于临时或永久地存储程序(例如，指令的序列)或数据(例如，程序状态信息)以由计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及盘或带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备或带设备，闪存或其它类似的固态存储器设备，或设备的阵列，包括在存储区域网络或其它配置中的设备。在附加的实施方式中，计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令，当该指令被执行时，进行一个或多个方法，诸如是上述那些方法。信息载体是计算机或机器可读介质，诸如存储器620、存储设备630、或处理器610上的存储器。

高速控制器640管理计算设备600的带宽密集操作，而低速控制器660管理较低的带宽密集操作。这样的职责的分配仅是示例性的。在一些实施方式中，高速控制器640被耦接到存储器620、显示器680(例如，通过图形处理器或加速器)以及高速扩展端口650，该高速扩展端口650可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器660被耦接到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器被耦接到一个或多个输入/输出设备，该一个或多个输入/输出设备诸如是键盘、指示设备、扫描仪或者诸如交换机或路由器的网络设备。

如图中所示，计算设备600可以以数个不同的形式来实施。例如，它可以被实施为标准服务器600a或以一组这样的服务器600a被多次实施、被实施为膝上型计算机600b、或者被实施为机架服务器系统600c的一部分。

可以以数字电子和/或光电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现本文中描述的系统和技术的各种实施方式。这些各种实施方式可以包括一个或多个计算机程序中的实施方式，该一个或多个计算机程序可以在包括至少一个可编程处理器的可编程系统上执行和/或解释，该至少一个可编程处理器可以是专用的或通用的，被耦接为从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令并且向存储系统、至少一个输入设备和至少一个输出设备传送数据和指令。

软件应用(即，软件资源)可以指代引起计算设备进行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“app”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息应用、媒体流应用、社交网络应用和游戏应用。

这些计算机程序(也被已知为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级的面向过程和/或面向对象的编程语言、和/或以汇编/机器语言来实施。如本文中使用的，术语“机器可读介质”和“计算机可读介质”指的是用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，该可编程处理器包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”指的是用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中所描述的处理和逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程处理器(也被称为数据处理硬件)来进行，以通过对输入数据进行操作并且生成输出来进行功能。进程和逻辑流也可以由专用逻辑电路进行，该专用逻辑电路例如是FPGA(现场可编程门阵列)或ASIC(专用集成电路)。例如，适用于执行计算机程序的处理器包括通用和专用微处理器，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的基本元件是用于进行指令的处理器以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，或者可操作地被耦接为从该大容量存储设备接收数据或向该大容量存储设备传输数据，或者这两者，该大容量存储设备例如是磁盘、磁光盘或光盘。然而，计算机不必具有这样的设备。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或者被并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面可以被实施在具有显示设备并且可选地具有键盘和指示设备的计算机上，显示设备例如是CRT(阴极射线管)监视器、LCD(液晶显示器)监视器或用于向用户显示信息的触摸屏，指示设备例如是鼠标或轨迹球，用户可以通过键盘和指示设备向计算机提供输入。其它种类的设备也可以用于提供与用户的交互；例如，向用户提供的反馈可以是任何形式的感觉反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向由用户使用的设备发送文档以及从由用户使用的设备接收文档来与用户进行交互；例如，通过响应于从用户的客户端设备上的网页浏览器接收的请求而向网页浏览器发送网页。

已经描述了数个实施方式。然而，应该理解的是，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其它实施方式在以下权利要求的范围内。

Claims

1.一种用于训练机器学习模型(150)的方法(500)，其特征在于，所述方法(500)包括：

在数据处理硬件(12)处获得标记训练样本(112G)的集合，每个标记训练样本(112G)与给定标签(116G)相关联；以及

在多个训练迭代的每个训练迭代期间：

对于所述标记训练样本(112G)的集合中的每个标记训练样本(112G)：

由所述数据处理硬件(12)生成用于所述标记训练样本(112G)的伪标签(116P)；

由所述数据处理硬件(12)估计指示所述给定标签(116G)的精确度的所述标记训练样本(112G)的权重(132)；

由所述数据处理硬件(12)确定所述标记训练样本(112G)的所述权重(132)是否满足权重阈值(142)；

当所述标记训练样本(112G)的所述权重(132)满足所述权重阈值(142)时，由所述数据处理硬件(12)将所述标记训练样本(112G)添加到干净标记训练样本(112C)的集合；以及

当所述标记训练样本(112G)的所述权重(132)不满足所述权重阈值(142)时，由所述数据处理硬件(12)将所述标记训练样本(112G)添加到错误标记训练样本(112M)的集合；以及

由所述数据处理硬件(12)使用对应的给定标签(116G)的所述干净标记训练样本(112C)的集合和使用对应的伪标签(116P)的所述错误标记训练样本(112M)的集合来训练所述机器学习模型(150)。

2.根据权利要求1所述的方法(500)，其特征在于，生成用于所述标记训练样本(112G)的所述伪标签(116P)包括：

基于所述标记训练样本(112G)，生成多个增强训练样本(112A)；

对于每个增强训练样本(112A)，使用所述机器学习模型(150)来生成预测标签(222)；以及

对为所述多个增强训练样本(112A)中的每个增强训练样本(112A)生成的每个预测标签(222)进行平均，以生成用于对应的所述标记训练样本(112G)的所述伪标签(116P)。

3.根据权利要求1或2所述的方法(500)，其特征在于，估计所述标记训练样本(112G)的所述权重(132)包括，确定所述标记训练样本(112G)的最优权重(132)的在线近似。

4.根据权利要求3所述的方法(500)，其特征在于，确定所述标记训练样本(112G)的所述最优权重(132)的所述在线近似包括，使用随机梯度下降优化。

5.根据权利要求3或4所述的方法(500)，其特征在于，所述最优权重(132)最小化所述机器学习模型(150)的训练损失(322)。

6.根据权利要求1-5中任一项所述的方法(500)，其特征在于，训练所述机器学习模型(150)包括：

获得可信训练样本(112T)的集合，每个可信训练样本(112T)与可信标签(116T)相关联；以及

使用所述可信训练样本(112T)的集合和所述标记训练样本(112G)的集合来生成凸组合(312)。

7.根据权利要求6所述的方法(500)，其特征在于，生成所述凸组合(312)包括，将成对混合应用于所述可信训练样本(112T)的集合和所述标记训练样本(112G)的集合。

8.根据权利要求6或7所述的方法(500)，其特征在于，训练所述机器学习模型(150)进一步包括：

使用对应的给定标签(116G)基于所述干净标记训练样本(112C)的集合来确定第一损失(322a)；

使用对应的伪标签(116P)基于所述错误标记训练样本(112M)的集合来确定第二损失(322b)；

基于所述可信训练样本(112T)的集合的所述凸组合(312)来确定第三损失(322c)；

基于所述标记训练样本(112G)的集合的所述凸组合(312)来确定第四损失(322d)；

基于所述标记训练样本(112G)的集合的所述给定标签(116G)与所述标记训练样本(112G)的集合的所述伪标签(116P)之间的Kullback-Leibler散度来确定第五损失(322e)；以及

基于所述第一损失(322a)、所述第二损失(322b)、所述第三损失(322c)、所述第四损失(322d)和所述第五损失(322e)来确定总损失(330)。

9.根据权利要求8所述的方法(500)，其特征在于，所述第三损失(322c)和所述第四损失(322d)是softmax交叉熵损失。

10.根据权利要求1-9中任一项所述的方法(500)，其特征在于，所述标记训练样本(112G)的集合中的每个标记训练样本(112G)是图像，并且所述给定标签(116G)是所述图像的文本描述符。

11.一种系统(100)，其特征在于，包括：

数据处理硬件(12)；以及

与所述数据处理硬件(12)进行通信的存储器硬件(14)，所述存储器硬件(14)存储指令，当在所述数据处理硬件(12)上执行所述指令时，所述指令使得所述数据处理硬件(12)进行操作，所述操作包括：

获得标记训练样本(112G)的集合，每个标记训练样本(112G)与给定标签(116G)相关联；以及

在多个训练迭代的每个训练迭代期间：

生成用于所述标记训练样本(112G)的伪标签(116P)；

估计指示所述给定标签(116G)的精确度的所述标记训练样本(112G)的权重(132)；

确定所述标记训练样本(112G)的所述权重(132)是否满足权重阈值(142)；

当所述标记训练样本(112G)的所述权重(132)满足所述权重阈值(142)时，将所述标记训练样本(112G)添加到干净标记训练样本(112C)的集合；以及

当所述标记训练样本(112G)的所述权重(132)不满足所述权重阈值(142)时，将所述标记训练样本(112G)添加到错误标记训练样本(112M)的集合；以及

使用对应的给定标签(116G)的所述干净标记训练样本(112C)的集合和使用对应的伪标签(116P)的所述错误标记训练样本(112M)的集合来训练所述机器学习模型(150)。

12.根据权利要求11所述的系统(100)，其特征在于，生成用于所述标记训练样本(112G)的所述伪标签(116P)包括：

基于所述标记训练样本(112G)，生成多个增强训练样本(112A)；

13.根据权利要求11或12所述的系统(100)，其特征在于，估计所述标记训练样本(112G)的所述权重(132)包括，确定所述标记训练样本(112G)的最优权重(132)的在线近似。

14.根据权利要求13所述的系统(100)，其特征在于，确定所述标记训练样本(112G)的所述最优权重(132)的所述在线近似包括，使用随机梯度下降优化。

15.根据权利要求13或14所述的系统(100)，其特征在于，所述最优权重(132)最小化所述机器学习模型(150)的训练损失(322)。

16.根据权利要求11-15中任一项所述的系统(100)，其特征在于，训练所述机器学习模型(150)包括：

17.根据权利要求16所述的系统(100)，其特征在于，生成所述凸组合(312)包括，将成对混合应用于所述可信训练样本(112T)的集合和所述标记训练样本(112G)的集合。

18.根据权利要求16或17所述的系统(100)，其特征在于，训练所述机器学习模型(150)进一步包括：

19.根据权利要求18所述的系统(100)，其特征在于，所述第三损失(322c)和所述第四损失(322d)是softmax交叉熵损失。

20.根据权利要求11-19中任一项所述的系统(100)，其特征在于，所述标记训练样本(112G)的集合中的每个标记训练样本(112G)是图像，并且所述给定标签(116G)是所述图像的文本描述符。