CN113822444A

CN113822444A - 模型训练及数据处理的方法、设备和计算机可读存储介质

Info

Publication number: CN113822444A
Application number: CN202110179274.1A
Authority: CN
Inventors: 全力; 张霓
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-12-21
Also published as: US20220261691A1

Abstract

本公开涉及模型训练及数据处理的方法、设备和计算机可读存储介质。训练模型的方法包括：确定训练集中的与多个原始样本相对应的多个增广样本集对待训练模型的相应影响程度；基于影响程度，从多个增广样本集中确定第一组增广样本集，并且第一组增广样本集将对待训练模型具有负面影响；确定与训练集相关联的训练损失函数，在训练损失函数中，来自第一组增广样本集的增广样本被分配第一权重，以用于使负面影响减小；基于训练损失函数和训练集，训练待训练模型。以此方式，能够优化训练所得的模型的性能。

Description

模型训练及数据处理的方法、设备和计算机可读存储介质

技术领域

本公开的实施例涉及数据处理领域，并且更具体地，涉及模型训练和数据处理的方法、设备和计算机可读存储介质。

背景技术

随着信息技术的发展，诸如神经网络的模型被广泛用于诸如计算机视觉、语音识别和信息检索等的各种机器学习任务。模型的准确性与训练数据相关。为了获得大量的训练数据，数据增广技术已经用于对训练数据的处理。然而，传统上，虽然利用经增广的训练集对模型进行训练能够使得模型具有良好的泛化性能，但缺乏针对经增广的训练集中的个体样本数据对模型的准确性的影响的分析。

发明内容

本公开的实施例提供了模型训练和数据处理的方法、设备和计算机可读存储介质。

在本公开的第一方面，提供一种训练模型的方法。该方法包括：确定训练集中的与多个原始样本相对应的多个增广样本集对待训练模型的相应影响程度；基于影响程度，从多个增广样本集中确定第一组增广样本集，并且第一组增广样本集将对待训练模型具有负面影响；确定与训练集相关联的训练损失函数，在训练损失函数中，来自第一组增广样本集的增广样本被分配第一权重，以用于使负面影响减小；基于训练损失函数和训练集，训练待训练模型

在本公开的第二方面，提供一种数据处理的方法。该方法包括：获取输入数据；以及利用根据本公开第一方面所述的方法训练的经训练模型，确定针对输入数据的预测结果。

在本公开的第三方面，提供一种电子设备。该电子设备包括至少一个处理电路。至少一个处理电路被配置为：确定训练集中的与多个原始样本相对应的多个增广样本集对待训练模型的相应影响程度；基于影响程度，从多个增广样本集中确定第一组增广样本集，并且第一组增广样本集将对待训练模型具有负面影响；确定与训练集相关联的训练损失函数，在训练损失函数中，来自第一组增广样本集的增广样本被分配第一权重，以用于使负面影响减小；基于训练损失函数和训练集，训练待训练模型。

在本公开的第四方面，提供一种电子设备。该电子设备包括至少一个处理电路。至少一个处理电路被配置为：获取输入数据；以及利用根据本公开第一方面所述的方法训练的经训练模型，确定针对输入数据的预测结果。

在本公开的第五方面，提供一种计算机可读存储介质。该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所描述的方法。

在本公开的第六方面，提供一种计算机可读存储介质。该计算机可读存储介质具有在其上存储的机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第二方面所描述的方法。

提供发明内容部分是为了以简化的形式来介绍一系列概念，它们在下文的具体实施方式中将被进一步描述。发明内容部分不旨在标识本公开的关键特征或必要特征，也不旨在限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

从下文的公开内容和权利要求中，本公开的目的、优点和其他特征将变得更加明显。这里仅出于示例的目的，参考附图来给出优选实施例的非限制性描述，在附图中：

图1A示出了本公开的一些实施例能够在其中实现的数据处理环境的示例的示意图；

图1B示出了本公开的一些实施例能够在其中实现的训练模型环境的示例的示意图；

图2示出了根据本公开的一些实施例的训练模型的示例方法的流程图；

图3示出了根据本公开的一些实施例的基于影响程度来训练模型的示意图；

图4示出了根据本公开的一些实施例的利用预训练来确定影响程度，并据此来训练模型的示意图；

图5示出了根据本公开的实施例的数据处理的示例方法的流程图；

图6示出了根据本公开的实施例的用于表示影响程度的有效性的示例的示意图；以及

图7示出了可以用来实施本公开的实施例的示例计算设备的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本文中所使用的术语“电路”可以指硬件电路和/或硬件电路和软件的组合。例如，电路可以是模拟和/或数字硬件电路与软件/固件的组合。作为另一示例，电路可以是具有软件的硬件处理器的任何部分，硬件处理器包括(多个)数字信号处理器、软件和(多个)存储器，其一起工作以使装置能够工作以执行各种功能。在又一示例中，电路可以是硬件电路和/或处理器，例如微处理器或微处理器的一部分，其需要用于操作的软件/固件，但是当不需要用于操作时软件可以不存在。如本文所使用的，术语“电路”也涵盖仅硬件电路或处理器或者硬件电路或处理器的一部分及其(或它们)随附软件和/或固件的实现。

在本公开的实施例中，术语“模型”能够处理输入并且提供相应输出。以神经网络模型为例，其通常包括输入层、输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的模型(也称为“深度学习模型”)通常包括许多隐藏层，从而延长网络的深度。神经网络模型的各个层按顺序相连以使得前一层的输出被用作后一层的输入，其中输入层接收神经网络模型的输入，而输出层的输出作为神经网络模型的最终输出。神经网络模型的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。在本文中，术语“神经网络”、“模型”、“网络”和“神经网络模型”可互换使用。

如上文所简要提及的，传统方案中缺乏针对经增广的训练集中的个体样本数据对模型的准确性的影响的分析。在实践中，经增广的训练集中的一些数据可能具有对模型负面的影响。然而，传统方案无法良好地区分出具有增广的训练集这些具有负面影响的数据，并且在训练过程中对这些数据所产生的负面影响进行抑制。因此，经由这样的数据训练的模型的准确性较差。

发明人已经发现，通过丢弃增广的训练集中对模型的训练具有负面影响(其具体评估方式将通过下文而详细描述)的一些增广样本(例如，200个)，然后对模型进行训练，可以使得经训练模型(例如，图像分类模型)对于测试集(例如，MNIST-10或CIFAR-10数据集，或从其中挑选的数据子集)的(例如，分类)准确度提升。

本公开的实施例提出了一种训练模型和数据处理的方案，以解决上述问题和/或其他潜在问题中的一个或多个。在该方案中，通过针对训练集中的每个样本的增广样本集确定其对待训练模型的影响程度，并根据影响程度确定每个样本的增广样本集是否属于对模型有害的增广样本集。对于对模型有害的增广样本集，调整训练过程中与该增广样本集中的样本相关联的权重和/或增广样本集中的样本被选取以进行影响抑制的概率。以此方式，能够优化训练所得的模型的性能，使得其在具有良好的泛化性能的同时，准确率得以改进。

以下将结合附图来详细描述本公开的示例实施例。

图1A示出本公开的一些实施例能够在其中实现的数据处理环境100的示例的示意图。如图1A所示，环境100包括计算设备110。计算设备110可以是具有计算能力的任何设备，例如个人计算机、平板计算机、可穿戴设备、云服务器、大型机和分布式计算系统等。

计算设备110获取输入120。例如，输入120可以是图像、视频、和/或多媒体文件等。计算设备110可以将输入120应用于网络模型130，以利用网络模型130，生成与输入120相对应的处理结果140。在一些实施例中，网络模型130可以是但不限于图像分类模型、语义分割模型、目标检测模型，或者其他与图像处理相关的神经网络模型。可以利用任何合适的网络结构来实现网络模型130，包括但不限于支持向量机(SVM)模型，贝叶斯模型，随机森林模型，各种深度学习/神经网络模型，诸如卷积神经网络(CNN)、循环神经网络(RNN)、深度神经网络(DNN)、深度强化学习网路(DQN)等。本公开的范围在此方面不受限制。

环境100还可以包括训练数据获取装置、模型训练装置和模型应用装置(未示出)。在一些实施例中，上述多个装置可以分别实现在不同的物理计算设备中。备选地，上述多个装置中的至少一部分装置可以被实现在同一计算设备中。例如，训练数据获取装置、模型训练装置和可以被实现在同一计算设备中，而模型应用装置150可以被实现在另一计算设备中。

在模型训练阶段，训练数据获取装置可以获取输入120，并将其提供给模型。输入120可以是训练集、验证集和测试集中的一者，并且网络模型130是待训练模型。模型训练装置可以基于输入对网络模型130进行训练，当输入是训练集时，处理结果140可以是对网络模型130的训练参数(例如，权重和偏置等)进行调整，使得模型在训练集上的误差(其可以通过损失函数来确定)降低。

当输入是验证集时，处理结果140可以是对网络模型130的超参数(例如，学习率、网络结构相关参数例如层数等)进行调整，使得模型在验证集上的性能得以优化。处理结果140也可以是对经训练的网络模型130的性能指标(例如，准确性)的表征，这可以例如通过验证损失来表示。在模型训练的最后阶段，输入可以是测试集(其通常具有比验证集更多的各种类型的样本)，并且处理结果140可以是对经训练的网络模型130的性能指标(例如，准确性)的表征，这可以例如通过测试损失来表示。

下面参考1B详细描述用于训练模型的环境150。环境150可以包括作为输入120的原始训练集122，原始训练集122中可以包括多个原始样本。在一些实施例中，样本可以是图像数据。计算设备(例如，计算设备的训练数据获取装置)可以被配置为对原始训练集进行数据增广处理，以获取增广的训练集124。增广的训练集124(在本文中有时也被简称为训练集)可以包括上述多个原始样本、以及与多个原始样本相对应的多个增广样本集，与多个原始样本相对应的多个增广样本集可以是分别对上述多个原始样本中的每个样本进行数据增广处理而获得的。在一些实施例中，与原始样本相对应的增广样本集可以不包括原始样本自身。在一些示例中，对于图像样本集，可以通过对其中的图像进行图像裁剪、旋转和翻转，而获得图像的经增广的训练集。在另一些示例中，对于图像样本集，可以应用诸如AutoAugment的自动样本增广的策略，获得图像的经增广的训练集，其中自动样本增广的策略包括一组经优化的增广方法。

于如下所讨论的方法，计算设备(例如，计算设备的训练数据获取装置)可以被配置为针对训练集124中的多个增广样本集中的每个增广样本集，确定对应的影响程度，并且基于所确定的影响程度，从多个增广样本集中确定出对待训练的网络模型130具有负面影响的第一组增广样本集128。可以例如通过给第一组增广样本集128赋予能够抑制其对模型130的负面影响的权重的方式和/或调整第一组增广样本集128中的样本被选取以对其实施影响抑制的概率的方式，实施对第一组增广样本集128的负面影响的抑制129，并由此对网络模型130进行训练，以得到对应的处理结果140。

在一些实施例中，影响程度可以基于如下文将详细讨论的第一损失值与第二损失值之间的差来确定。在一些实施例中，第一损失值与第二损失值之间的差可以由如下文将详细讨论的增广样本集的影响程度分数(AIFS)来确定，换言之，影响程度也可以基于AIFS来确定。

回到参考图1A，经训练的网络模型可以被提供给模型应用装置。模型应用装置可以获取经训练模型以及输入120，并确定针对输入120的处理结果140。在模型应用阶段，输入120可以是待处理的输入数据(例如，图像数据)，网络模型130是经训练模型(例如，经训练的图像分类模型)，处理结果140可以是与输入120(例如，图像数据)相对应的预测结果(例如，图像的分类结果、语义分割结果或目标识别结果)。

应当理解，图1A所示的环境100以及图1B所示的环境150仅仅是本公开的实施例可实现于其中的一种示例，不旨在限制本公开的范围。本公开的实施例同样适用于其他系统或架构。

下文将结合图2至图5详细描述根据本公开实施例的方法。为了便于理解，在下文描述中提及的具体数据均是示例性的，并不用于限定本公开的保护范围。为了便于描述，以下结合图1A和图1B所示的示例性环境100和150来描述根据本公开实施例的方法。根据本公开实施例的方法可以在图1A中示出的计算设备110或其他适当的设备中实现。应当理解，根据本公开实施例的方法还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

图2示出了根据本公开的实施例的训练模型的示例方法200的流程图。例如，方法500可以由如图1A所示的计算设备110(例如，部署在其中的模型训练装置)来执行。以下将结合图1A和图1B的示例性环境来描述方法200。

在框202处，计算设备110可以确定训练集中的与多个原始样本相对应的多个增广样本集对待训练模型的相应影响程度。为了便于说明，以下将结合图3来具体解释。图3示出了根据本公开的一些实施例的基于影响程度来训练模型的示意图300。此处，训练集124是对包括多个原始样本的原始训练集122进行数据增广处理所获得的增广的训练集124。增广的训练集124可以包括多个原始样本、以及对应的多个增广样本集，其中每个增广样本集可以是对相应的一个原始样本进行数据增广处理而获得的。

对于增广的训练集124中的每个增广样本集，可以确定其对网络模型130(有时也被简称为，待训练模型130或模型130)的影响程度325。基于所确定的影响程度，可以对增广的训练集124中的样本进行分类，以作为后续实施负面影响抑制的基础。

在一些实施例中，影响程度例如可以通过以下计算损失值的步骤来确定。计算设备可以基于训练集124的第一训练子集，确定第一损失值，其中第一训练子集仅包括进行数据增广处理之前的多个原始样本。在一些实施例中，可以基于训练集的第一训练子集对模型130进行训练，以获得一组优化参数，并基于该一组优化参数对模型130进行更新，得到使用该一组优化参数的更新模型。然后，可以通过在更新模型上应用验证集来获得第一损失值。

第一损失值例如可以表达为

其中l表示损失函数；

表示由多个(例如，n个)原始样本构成的原始训练集122，其可以进一步被表达为

X表示输入，并且Y表示对应的输出；

表示由多个(例如，m个)验证样本构成的验证集，其可以进一步被表示为

表示一组优化参数，其可以表示基于原始训练集(显然，其是增广的训练集的一子集，即第一训练子集)，对模型进行训练所获得的优化参数，例如

其中argmin表示获取使其后的表达式达到最小值时θ的值。

计算设备110可以基于训练集124的第二训练子集，确定第二损失值。第二训练子集可以包括多个原始样本、以及多个增广样本集中的至少一个增广样本集，该至少一个增广样本集与多个原始样本中的至少一个原始样本相对应。在一些实施例中，第二训练子集可以包括一个原始样本和对应的一个增广样本集，以使得能够以更细的粒度来确定对模型具有负面影响的增广样本集。

例如，第二训练子集可以包括原始样本z1至zn，但还包括其中的一个原始样本进行数据增广处理之后的增广样本集，换言之，原始训练集中的一个原始样本z用以下样本集

来替代：对该原始样本z进行数据增广操作后，所获得的一组样本所组成的

在一些实施例中，可以基于训练集的第二训练子集对模型130进行训练，以获得另一组优化参数，并基于该另一组优化参数对模型130进行更新，得到使用该另一组优化参数的更新模型。然后，可以通过在更新模型上应用验证集来获得第二损失值。

第二损失值例如可以表达为

其中另一组优化参数被表示为

其可以表示基于如上所述的第二训练子集，对模型进行训练所获得的优化参数。

基于所述第一损失值和所述第二损失值，计算设备可以确定所述至少一个增广样本集对所述待训练模型的影响程度。可以理解的是，虽然上文以基于验证集来计算损失值的方式，来确定增广样本集对于模型130的影响，但其他适合于确定训练后的模型的上述第一和第二损失的方式也同样适用。

在框204处，计算设备110可以基于影响程度，从多个增广样本集中确定第一组增广样本集128，并且第一组增广样本集128将对待训练模型具有负面影响。由于训练过程中的一个重要指标是损失函数，训练过程是朝着使得损失函数的值减小的方向而进行。因此，可以通过比较以上确定的第一损失值和第二损失值，来确定影响程度是否是负面影响。在一些实施例中，影响程度可以基于下面将两个损失值相减的等式(1)而确定：

在等式(1)中，影响程度通过验证损失(即，在验证集上的损失)的改变来指示，换言之，通过在两个经不同训练(例如，训练数据不同)的模型上的验证损失之间的差来指示。如果确定上述等式(1)的结果小于零，则可以将与至少一个原始样本相对应的至少一个增广样本集(例如，其可以用

来指示)确定为属于第一组增广样本集128。这是因为，利用包括该至少一个样本所对应的至少一个增广样本集的训练集进行训练，是使模型朝着损失函数的值增大的方向而进行。因此，这样的样本集可以被认为对训练模型130是有害的。

附加地或备选地，如果确定上述等式(1)的结果(即，第一损失值与第二损失值之差)大于或等于零，则可以将与至少一个原始样本相对应的至少一个增广样本集(例如，其可以用

来指示)确定为属于第二组增广样本集326。第二组增广样本集326将对待训练模型具有正面影响。这是因为，利用包括该至少一个样本所对应的增广样本集的训练集进行训练，是使模型朝着损失函数的值减小或不变的方向而进行。因此，这样的样本集可以被认为对训练模型130是有益的。

在框206处，计算设备110可以确定与训练集124相关联的训练损失函数335，在训练损失函数中，来自第一组增广样本集326的增广样本被分配第一权重，第一权重可以是使上述负面影响减小的任意值。在一些实施例中，第一权重可以是非零的正值。对于第一组增广样本集128，由于其对于模型130的影响是有害的，因此，来自第一组增广样本集128可以被分配有较低的第一权重。在一些实施例中，第一权重可以根据影响程度的大小而调整。例如，对于负面影响较大的样本，可以使其相应的第一权重接近于零，继而使得其对训练损失函数的影响减小，从而实现对该样本负面影响的较佳的抑制。

发明人发现，虽然通过丢弃具有负面影响的样本的方式，可能可以在验证集上获得更佳的准确性。然而，以这样的方式所获得的模型可能针对验证集能够获得较佳的准确性，但在诸如测试集或真实的待预测的输入数据上并不能取得较佳的效果。通过对具有负面影响的样本施加权重，而非直接丢弃这些样本的方案，能够使得经训练的模型130的泛化能力更强。

附加地或备选地，在训练损失函数中，来自第二组增广样本集326中的增广样本被分配第二权重，第二权重大于或等于第一权重。可以理解的是，对于第二组增广样本集326，由于其对于模型130的影响是有益的，因此，来自第二组增广样本集326可以被分配有较高的第二权重，例如，固定值1。在一些实施例中，第二权重可以是使上述正面影响不变或增强的任意值。例如，对于正面影响更大大的样本，可以使其相应的第二权重更大。

在框208处，计算设备110可以基于训练损失函数335和训练集124，训练待训练模型。

例如，可以通过前向传播332和反向传播334，找到将训练损失函数335的训练损失值最小化的一组优化参数。上述过程可以迭代地执行，直到训练损失值小于预定值为止。

在一些实施例中，为了使得负面样本的影响进一步降低并改进准确性，在每个训练批次中，可以并非对增广的训练集124中的全部样本来进行抑制。在一些实施例中，可以随机挑选第一组增广样本集128中的部分样本来构建一训练子集，并构建与该训练子集相关联的训练损失函数。在一些实施例中，可以使得负面影响较大的样本被选取的概率更高，以此实现对这样的样本更佳的抑制。

附加地或备选地，该训练子集可以包括第二组增广样本集326中的全部或部分样本。在一些实施例中，对于被选取的部分样本，在训练损失函数中，可以分配小于第二权重的第一权重，并且未被选取的其他样本可以分配等于第二权重的第一权重。

以此方式，能够确定出增广的训练集中对模型的训练具有负面影响的第一组增广样本集，并且能够容易地施加对这样的负面影响的抑制，并由此使得训练得到的模型能够具有较佳的准确性。

图4示出了根据本公开的一些实施例的利用预训练来确定影响程度，并据此来训练模型的过程的示意图400。图4所示出的过程与上述参考图2和图3所描述的过程类似，下文仅详细介绍与图2和图3的过程不同的部分。

具体地，由于用于确定影响程度的上述等式(1)的计算过程相对复杂，例如，针对每个原始样本，需要基于两个不同的训练集来对模型进行两次训练，并分别进行两次验证而确定两个不同的损失值，因此，期望的是，能够以较简便且计算资源消耗较少的方式来确定影响程度。例如，期望能在一次训练过程中，就能确定针对每个原始样本的影响程度。

发明人发现，可以借助与其中通过对样本施加微小的扰动来确定样本的影响的影响函数相似的方式，来以较简单的方式确定上述影响程度。然而，对于包括多个增广样本的增广样本集，如何施加扰动成为待解决的问题。

为此，发明人定义了以下等式(2)，其表示对于第二训练子集(其包括原始样本，以及其中的与一个原始样本相对应的增广样本集)的经验风险最小化函数：

其中

可以表示扰动，其中∈表示一个极小值，以用于使得该扰动是微小的。在∈＝1/n情况下，上述等式(1)可以是针对训练集包括原始样本和与其中的与一个原始样本相对应的增广样本集(其可以包括该原始样本本身)二者的情况，换言之，用对该一个原始样本进行数据增广后的增广形式来替换该原始样本的情况。因此，施加上述扰动后的影响可以表示为以下等式(3)：

其中H表示海森(Hessian)矩阵。

进一步地，上述等式(3)可以使用∈＝1/n以及线性近似而进一步简化为以下等式(4)，以用于表示由执行上述替换所引起的优化参数的改变：

基于上文所提及的扰动，等式(1)所表示的验证损失的改变可以表示为对原始训练集中的一个原始样本执行其增广形式的替换后(例如，在∈＝1/n的情况下)，而导致的验证损失的改变。因此，在等式(4)的基础上，等式(1)中的损失值之差可以采用如下等式(5)来近似地表示：

其中AIFS表示在m个验证样本上，增广样本集

对模型30的影响程度分数，上述等式(5)的右侧通过一阶泰勒展开而近似。通过AIFS分数的大小，可以表示m个验证样本上，增广样本集

对模型30的正面影响或负面影响的大小。

从等式(5)的右侧可以看出，一组优化参数

仅与由原始样本所组成的原始训练集

相关，并且因此，仅需要进行一次训练来获取该一组优化参数即可。

现在参考图6来说明上述等式(5)与等式(1)之间的接近程度。图6示出了根据本公开的实施例的用于表示影响程度的有效性的示例600的示意图。如图6所示，点图620和点图640分别表示在MNIST-2数据集、以及在CIFAR-2数据集上，根据上文所述的方法所得多个增广样本集的AIFS与相应的验证损失的改变之间的关系，每个验证损失的改变通过将两个训练过程所得到的损失进行相减而获得，其中第一训练过程基于仅包含原始样本的训练集而进行，并且第二训练基于通过将原始样本中的一个样本替换成该样本的增广形式而获得的训练集进行。从图中可以看出，针对MNIST-2数据集，上述二者(即，AIFS与验证损失的改变)之间的皮尔斯相关系数(Pearson r)为0.9989，并且针对CIFAR-2数据集，上述二者(即，AIFS与验证损失的改变)之间的皮尔斯相关系数为0.9996。由此可见，本公开所提出的等式(5)中的AIFS能够很好表示等式(1)中的通过将两个损失值相减所确定的影响程度。因此，在一些实施例中，影响程度(例如，第一损失值与第二损失值之差)也可以基于计算AIFS来确定。

返回参考图4，在此基础上，计算设备120可以至少基于与待训练模型300有关的预训练模型445、原始训练集122中的至少一个原始样本(例如，1个)、以及增广的训练集124中相应的至少一个增广样本集(例如，1个)，来确定等式(5)的结果(即AIFS)并进而确定影响程度325，等式(5)的结果与上述等式(1)的结果近似相等。因此，可以使用等式(5)的结果来确定第一损失值和第二损失值之差。

从以上公式可以得知，预训练模型445仅使用由多个原始样本所组成的原始训练集122而训练，并由此获取一组优化参数

由此，计算设备能够计算出上述等式(5)中项

的差值，并进而确定等式(5)的结果。

以此方式，能够使得用于确定影响程度的计算过程得以简化，例如，仅需使用原始训练集122对预训练模型445训练一次即可。由此可以减少用于确定第一组增广样本集128所花费的计算开销。

在一些实施例中，用于表示是影响程度325的AIFS还可以进一步基于海森矩阵来确定。考虑到上述等式(5)中的与一组优化参数相关的海森矩阵的计算仍然计算开销较大。在一些实施例中，海森矩阵可以通过使用预训练模型445而被预先确定，并存储在存储装置中。在一些实施例中，可以通过隐式海森向量积HVP(implicit Hessian-vector product)来近似计算等式(5)中的与海森矩阵相关的项

所存储的与海森矩阵相关的计算值可以随后被读取，以在后续使用预训练模型的过程中使用。以此方式，能够进一步减少在训练过程中实时所需的计算开销。

基于上面所确定的每个增广样本集的AIFS，可以将具有小于0的AIFS的增广样本集确定为属于第一组增广样本集128(其可以被表示为H_n)，即具有负面影响的增广样本集；附加地或备选地，可以将具有大于或等于0的AIFS的增广样本集确定为属于第二组增广样本集326(其可以被表示为H_p)，具有正面影响的增广样本集。

在一些实施例中，对于上文参考图2所描述的训练待训练模型的过程，本实施例还可以包括以下用于选取将在其上实施影响抑制的训练样本的步骤。例如，计算设备可以基于所确定的影响程度(例如，AIFS)，确定第一组增广样本集128中的每个增广样本被选取的概率。概率可以用于表示在每个训练批次(batch)中，预定样本被选取作为训练子集中的样本的概率。对于每个训练批次，计算设备基于上述概率，从训练集124确定训练子集，以用于基于该训练子集构建与之相关联的训练损失函数335。然后，计算设备可以朝向使训练损失函数335最小化的方向来训练待训练模型130。

例如，可以采用服从伯努利分布

的变量S_k，来选取第一组增广样本集128中需要进行抑制的样本，其中

即特定样本Zk的AIFS的绝对值，与H_n中的所有样本所具有的AIFS值中的最大AIFS的绝对值的比值，并且H_n中的样本被选取的概率满足以下等式(6)：

因此，AIFS越小(负值)，pk越大，S_k＝1的概率越大，表明该样本更易被选取，反之亦然。

基于按照如上方式所选取的训练样本，训练损失函数335可以按以下方法来构建。例如，针对上述训练子集，计算设备110可以基于上述概率来确定的第一权重，并可以将上述第一权重分配给来自第一组增广样本集128中对应的被选取的增广样本。例如，当特定增广样本集的AIFS越小(负值)时，pk越大，其中的样本被选取的概率越大，并且在该样本被选取时，第一权重也相应越小。在一些实施例中，针对上述训练子集，来自第二组增广样本集326的对应增广样本的第二权重可以是1。

在一些实施例中，可以构建按照以下等式(7)表示的经有害增广样本集抑制的训练损失函数(L_HASI)作为训练损失函数335：

例如，可以通过前向传播332和反向传播334，找到将等式(7)的值最小化的一组优化参数。上述过程可以迭代地执行，直到训练损失值小于预定值为止。可以理解的是，虽然上面以伯努利分布、以及与之相关联的变量来选取样本，并构建相应的训练损失函数为例来描述，但其他类似的分布也可以应用于本公开，本公开在此并不受限制。

根据本实施例，能够以消耗计算资源的方式来确定增广样本集的影响程度，并进而实现对具有负面影响的增广样本施加抑制，并由此使得训练得到的模型能够具有较佳的准确性。

图5示出了根据本公开的实施例的训练模型和数据处理的示例方法500的流程图。例如，方法500可以由如图1A所示的计算设备来执行。

在框502处，计算设备110可以获取输入数据。计算设备110处可以部署有根据上文所描述的方式训练过的经训练模型。在一些实施例中，输入数据可以是待进行图像分类的图像数据，并且经训练模型是图像分类模型、语义分割模型以及目标识别模型中的一项。

在框504处，计算设备110可以利用经训练模型，确定针对所述输入数据的预测结果。例如，在上述输入数据可以是待进行图像分类的图像数据，并且经训练模型是图像分类模型的实施例中，预测结果是所述图像的分类结果。在上述输入数据可以是待进行语义分割的图像数据，并且经训练模型是语义分割模型的实施例中，预测结果是语义分割结果。在上述输入数据可以是待进行语义分割的图像数据，并且经训练模型是目标识别模型的实施例中，预测结果是目标识别结果。根据本公开的方案还可以应用于其他与图像处理相关的任务中、或者基于图像处理技术而进行的任务(例如，自动驾驶、自主泊车等)中。

图7示出了可以用来实施本公开的实施例的示例计算设备700的示意性框图。例如，如图1A所示的系统100中的一个或多个装置可以由设备700来实施。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元701可被配置为执行上文所描述的各个过程和处理，例如方法200和500。例如，在一些实施例中，方法200和500可以被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法200和500中的一个或多个步骤。

在一些实施例中，电子设备包括至少一个处理电路。至少一个处理电路被配置为上文所描述的方法200和500中的一个或多个步骤

本公开可以被实现为系统、方法和/或计算机程序产品。当本公开被实现为系统时，除了能够在单个设备上实现之外，本文所描述的部件还可以以云计算架构的形式来实现。在云计算环境中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。云计算可以提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。云计算可以使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过浏览器或任何其他计算组件被访问。云计算的部件以及相应的数据可以被存储在远程服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并，或者这些计算资源可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程服务提供商提供本文所描述的各种功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。此外，本公开还可以被实现为计算机程序产品，该计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于数据处理的模型训练方法，包括：

确定训练集中的与多个原始样本相对应的多个增广样本集对待训练模型的相应影响程度；

基于所述影响程度，从所述多个增广样本集中确定第一组增广样本集，并且所述第一组增广样本集将对所述待训练模型具有负面影响；

确定与所述训练集相关联的训练损失函数，在所述训练损失函数中，来自所述第一组增广样本集的增广样本被分配第一权重，以用于使所述负面影响减小；以及

基于所述训练损失函数和所述训练集，训练所述待训练模型。

2.根据权利要求1所述的方法，其中确定所述多个增广样本集对待训练模型的影响程度包括：

基于所述训练集的第一训练子集，确定第一损失值，所述第一训练子集仅包括所述多个原始样本；

基于所述训练集的第二训练子集，确定第二损失值，所述第二训练子集包括所述多个原始样本和所述多个增广样本集中的至少一个增广样本集，所述至少一个增广样本集与所述多个原始样本中的至少一个原始样本相对应；以及

基于所述第一损失值和所述第二损失值，确定所述至少一个增广样本集对所述待训练模型的影响程度。

3.根据权利要求2所述的方法，其中确定所述第一组增广样本集还包括：

如果确定所述差小于零，将所述至少一个增广样本集确定为属于所述第一组增广样本集；

如果确定所述第一损失值与所述第二损失值之差大于或等于零，将所述至少一个增广样本集确定为属于第二组增广样本集，所述第二组增广样本集将对所述待训练模型具有正面影响。

4.根据权利要求3所述的方法，其中确定所述差包括：

至少基于与所述待训练模型有关的预训练模型、所述至少一个原始样本、以及所述至少一个增广样本集来确定所述差，所述预训练模型仅使用所述多个原始样本而被训练。

5.根据权利要求4所述的方法，其中至少基于与所述待训练模型有关的预训练模型、所述至少一个原始样本、以及所述至少一个增广样本集来确定所述差进一步包括：

基于海森矩阵来确定所述差，所述海森矩阵使用所述预训练模型而被预先确定。

6.根据权利要求1所述的方法，其中训练所述待训练模型包括：

基于所述影响程度，确定第一组增广样本集中的每个增广样本被选取的概率；以及

基于所述概率，从所述训练集确定训练子集；

至少基于与所述训练子集相关联的所述训练损失函数，训练所述待训练模型。

7.根据权利要求6所述的方法，其中确定所述训练损失函数还包括：

针对训练子集中来自所述第一组增广样本集的增广样本，基于所述概率来确定所述第一权重。

8.一种数据处理的方法，包括：

获取输入数据；以及

利用根据权利要求1-7中任一项所述的方法训练的经训练模型，确定针对所述输入数据的预测结果。

9.根据权利要求8所述的方法，其中所述输入数据是图像的数据，所述经训练模型是图像分类模型、语义分割模型以及目标识别模型中的一项，并且所述预测结果是所述图像的分类结果、语义分割结果、目标识别结果中的对应的一项。

10.一种电子设备，包括：

至少一个处理电路，所述至少一个处理电路被配置为：

11.根据权利要求10所述的设备，其中所述至少一个处理电路被进一步配置为：

12.根据权利要求11所述的设备，其中所述至少一个处理电路被进一步配置为：

13.根据权利要求11所述的设备，其中所述至少一个处理电路被进一步配置为：

14.根据权利要求13所述的设备，其中所述至少一个处理电路被进一步配置为：

利用海森矩阵来确定所述差，所述海森矩阵使用所述预训练模型而被预先确定。

15.根据权利要求10所述的设备，其中所述至少一个处理电路被进一步配置为：

基于所述概率，从所述训练集确定训练子集；

16.根据权利要求15所述的设备，其中所述至少一个处理电路被进一步配置为：

17.一种电子设备，包括：

至少一个处理电路，所述至少一个处理电路被配置为：

获取输入数据；以及

18.根据权利要求17所述的设备，其中所述输入数据是图像的数据，所述经训练模型是图像分类模型、语义分割模型以及目标识别模型中的一项，并且所述预测结果是所述图像的分类结果、语义分割结果、目标识别结果中的对应的一项。