CN111783869A

CN111783869A - 训练数据筛选方法、装置、电子设备及存储介质

Info

Publication number: CN111783869A
Application number: CN202010602841.5A
Authority: CN
Inventors: 马良
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2020-10-16
Anticipated expiration: 2040-06-29
Also published as: CN111783869B

Abstract

本申请实施例公开了一种训练数据筛选方法、装置、电子设备及存储介质，属于计算机技术领域。所述方法包括：基于数据集中的M个训练数据对初始模型进行训练，所述M为大于1的整数，在训练过程中，确定所述M个训练数据的训练难度值，得到M个目标训练难度值，所述目标训练难度值用于指示所述初始模型对所对应的训练数据的学习难度。根据所述M个目标训练难度值，从所述M个训练数据中筛选目标训练数据。也即是，根据初始模型对M个训练数据的学习难度，对M个训练数据进行筛选，确定出目标训练数据，可以减少训练数据的数据量，从而不仅降低了电子设备的存储负担，还减少了模型训练所需的时间，提高了模型训练的效率。

Description

训练数据筛选方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种训练数据筛选方法、装置、电子设备及存储介质。

背景技术

深度学习是基于数据集中的训练数据对未经过训练的模型进行训练，以便得到符合用户需求的模型。数据集中通常可以包括大量的训练数据，但这些训练数据中可能会包括一些对模型训练没有帮助的冗余数据，这些冗余数据不但要占用部分存储空间，增大了电子设备的存储负担，而且在模型训练过程中，使用这些冗余数据还会增加模型训练所需的时间，从而降低了模型训练的效率。

发明内容

本申请实施例提供了一种训练数据筛选方法、装置、电子设备及存储介质，可以解决相关技术增大电子设备的存储负担和降低模型的训练效率的问题。所述技术方案如下：

一方面，提供了一种训练数据筛选方法，所述方法包括：

基于数据集中的M个训练数据对初始模型进行训练，所述M为大于1的整数；

在训练过程中，确定所述M个训练数据的训练难度值，得到M个目标训练难度值，所述目标训练难度值用于指示所述初始模型对所对应的训练数据的学习难度；

根据所述M个目标训练难度值，从所述M个训练数据中筛选目标训练数据。

在本申请实施例一种可能的实现方式中，所述在训练过程中，确定所述M个训练数据的训练难度值，得到M个目标训练难度值，包括：

基于所述M个训练数据，对所述初始模型进行多次训练；

每完成一次训练，分别确定在本次训练中所述M个训练数据中的各个训练数据的第一训练难度值；

确定各个训练数据在多次训练中的第一训练难度值的均值，得到各个训练数据的第二训练难度值；

将所述M个训练数据的第二训练难度值确定为所述M个目标训练难度值。

在本申请实施例一种可能的实现方式中，在所述M个训练数据带有标签的情况下，所述每完成一次训练，分别确定在本次训练中所述M个训练数据中的各个训练数据的第一训练难度值，包括：

每完成一次训练，确定在本次训练中所述各个训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的一项或多项；

基于所述各个训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的一项或多项，确定所述各个训练数据的第一训练难度值。

在本申请实施例一种可能的实现方式中，所述每完成一次训练，确定在本次训练中所述各个训练数据的第一分类误差值，包括：

对于所述M个训练数据中的任一训练数据，每完成一次训练，获取所述任一训练数据对应的第一概率和第二概率，所述第一概率是指所述初始模型输出的所述任一训练数据属于第一标签的概率，所述第一标签为所述任一训练数据对应的标签，所述第二概率是指所述初始模型输出的所述任一训练数据属于除所述第一标签之外的其他标签的最大概率；

基于所述第一概率和所述第二概率，确定在本次训练中所述任一训练数据的第一分类误差值，所述任一训练数据的第一分类误差值与所述任一训练数据的第一训练难度值负相关。

在本申请实施例一种可能的实现方式中，所述每完成一次训练，确定在本次训练中所述各个训练数据的第二分类误差值，包括：

对于所述M个训练数据中的任一训练数据，每完成一次训练，获取所述任一训练数据对应的第一变量和第二变量，所述第一变量是指所述任一训练数据的特征向量与第一分类超平面的距离，所述第一分类超平面为第一标签对应的分类超平面，所述第一标签为所述任一训练数据对应的标签，所述第二变量是指所述任一训练数据的特征向量与至少一个第二分类超平面的距离中的最大距离，所述至少一个第二分类超平面为除所述第一标签之外的其他标签对应的分类超平面；

基于所述第一变量和所述第二变量，确定在本次训练中所述任一训练数据的第二分类误差值，所述任一训练数据的第二分类误差值与所述任一训练数据的第一训练难度值负相关。

在本申请实施例一种可能的实现方式中，所述每完成一次训练，确定在本次训练中所述各个训练数据的交叉熵损失值，包括：

对于所述M个训练数据中的任一训练数据，每完成一次训练，获取所述任一训练数据对应的第一概率，所述第一概率是指所述初始模型输出的所述任一训练数据属于第一标签的概率，所述第一标签为所述任一训练数据对应的标签；

基于所述第一概率，确定在本次训练中所述任一训练数据的交叉熵损失值，所述任一训练数据的交叉熵损失值与所述任一训练数据的第一训练难度值正相关。

在本申请实施例一种可能的实现方式中，所述每完成一次训练，确定在本次训练中所述各个训练数据的信息熵，包括：

对于所述M个训练数据中的任一训练数据，每完成一次训练，获取所述任一训练数据对应的P个第三概率，所述P为大于1的整数，所述P个第三概率是指所述初始模型输出的所述任一训练数据分别属于P个标签的概率；

基于所述P个第三概率，确定在本次训练中所述任一训练数据的信息熵，所述任一训练数据的信息熵与所述任一训练数据的第一训练难度值正相关。

在本申请实施例一种可能的实现方式中，若所述初始模型的数量为多个，所述根据所述M个目标训练难度值，从所述M个训练数据中筛选目标训练数据，包括：

按照所述M个目标训练难度值从大到小的顺序，对所述M个训练数据进行排序；

从排序后的M个训练数据中，确定与各个初始模型对应的候选训练数据，得到多组候选训练数据，其中，对于所述多个初始模型中的任一初始模型，基于所述任一初始模型对应的候选训练数据训练得到的模型的识别准确率与基于所述M个训练数据训练得到的模型的识别准确率的差值小于差值阈值；

将所述多组候选训练数据的并集确定为所述目标训练数据。

在本申请实施例一种可能的实现方式中，所述从排序后的M个训练数据中，确定与各个初始模型对应的候选训练数据，得到多组候选训练数据，包括：

对于所述多个初始模型中的任一初始模型，按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据，其中，所述N为大于1的整数，且所述N小于所述M；

基于当前选择的N个训练数据对所述任一初始模型进行训练，得到第一模型；

确定所述第一模型的第一识别准确率；

确定所述第一模型的第一识别准确率与第二模型的第二识别准确率的差值，所述第二模型是基于所述M个训练数据对所述任一初始模型训练得到的；

若所述第一识别准确率与所述第二识别准确率的差值大于或等于所述差值阈值，重新确定所述N，返回所述按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据的步骤，直到所述第一识别准确率与所述第二识别准确率的差值小于所述差值阈值，将当前选择的N个训练数据确定为所述任一初始模型的候选训练数据。

在本申请实施例一种可能的实现方式中，若所述M个训练数据中包括属于多种标签的训练数据，所述按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据，包括：

按照所述M个训练数据中每个训练数据的标签，在排序后的M个训练数据中将属于相同标签的训练数据划为一组，同组中的训练数据是按照训练难度值从大到小的顺序排列；

按照从前往后的顺序，分别从划分后的各组中选择前指定比例个训练数据，得到所述N个训练数据。

在本申请实施例一种可能的实现方式中，若所述初始模型的数量为多个，所述在训练过程中，确定所述M个训练数据的训练难度值，得到M个目标训练难度值，包括：

基于所述M个训练数据，对所述多个初始模型分别进行训练；

每完成一个初始模型的训练，分别确定针对当前的初始模型的训练，所述M个训练数据中的各个训练数据的第二训练难度值，其中，各个训练数据的第二训练难度值是基于多个第一训练难度值确定的，所述多个第一训练难度值是在当前初始模型的多次训练中确定；

确定各个训练数据针对所述多个初始模型的训练的第二训练难度值的均值，得到各个训练数据的第三训练难度值；

将所述M个训练数据的第三训练难度值确定为所述M个目标训练难度值。

另一方面，提供了一种训练数据筛选装置，所述装置包括：

训练模块，用于基于数据集中的M个训练数据对初始模型进行训练，所述M为大于1的整数；

确定模块，用于在训练过程中，确定所述M个训练数据的训练难度值，得到M个目标训练难度值，所述目标训练难度值用于指示所述初始模型对所对应的训练数据的学习难度；

筛选模块，用于根据所述M个目标训练难度值，从所述M个训练数据中筛选目标训练数据。

在本申请实施例一种可能的实现方式中，所述确定模块用于：

基于所述M个训练数据，对所述初始模型进行多次训练；

在所述M个训练数据带有标签的情况下，每完成一次训练，确定在本次训练中所述各个训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的一项或多项；

在本申请实施例一种可能的实现方式中，所述筛选模块用于：

若所述初始模型的数量为多个，按照所述M个目标训练难度值从大到小的顺序，对所述M个训练数据进行排序；

将所述多组候选训练数据的并集确定为所述目标训练数据。

确定所述第一模型的第一识别准确率；

若所述M个训练数据中包括属于多种标签的训练数据，按照所述M个训练数据中每个训练数据的标签，在排序后的M个训练数据中将属于相同标签的训练数据划为一组，同组中的训练数据是按照训练难度值从大到小的顺序排列；

若所述初始模型的数量为多个，基于所述M个训练数据，对所述多个初始模型分别进行训练；

将所述M个训练数据的第三训练难度值确定为所述M个目标训练难度值。另一方面，提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的程序，以实现上述所述的训练数据筛选方法的步骤。

另一方面，提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的训练数据筛选方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的训练数据筛选方法的步骤。

本申请实施例提供的技术方案至少可以带来以下有益效果：

基于数据集中的M个训练数据对初始模型进行训练，并在训练过程中，确定初始模型对该M个训练数据中每个训练数据的学习难度，得到每个训练数据的目标训练难度值。对于训练数据来说，目标训练难度值越小，说明该训练数据越易学习，但目标训练难度值小的训练数据对模型训练的帮助不大，且会增加模型训练的时间。因此，可以根据M个目标训练难度值，对M个训练数据进行筛选，确定出目标训练数据，如此，可以减少训练数据的数据量，从而不仅降低了电子设备的存储负担，还减少了模型训练所需的时间，提高了模型训练的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种训练数据筛选方法的流程图；

图2是根据一示例性实施例示出的一种确定候选训练数据的示意图；

图3是根据一示例性实施例示出的一种训练数据筛选装置的结构示意图；

图4是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例提供的训练数据筛选方法进行详细的解释说明之前，先对本申请实施例提供的应用场景和执行主体进行介绍。

首先，对本申请实施例提供的应用场景进行介绍。

开放训练平台是一个可以根据用户上传的训练数据自动训练出深度学习模型的自动化平台。用户可以通过客户端上传图片、音频、视频等，下载开放训练平台训练好的模型。开放训练平台可以在电子设备上运行，且电子设备可以通过该开放训练平台对初始模型进行训练，以便得到满足用户需求的目标模型，且该开放训练平台可以包括适用于不同的业务领域的数据集。例如，适用于安防领域的数据集，该数据集中包括的训练数据可以为人像的图像、车辆的图像等。

对于任一业务领域来说，可以使用该业务领域的数据集中的所有训练数据对初始模型进行训练，以便得到适用于该业务领域的目标模型。但由于数据集中的训练数据的数据量非常大，因此，使用数据集中所有的训练数据对初始模型训练会耗费很长时间，还会耗费电子设备的计算资源，而且，大量的训练数据存储在电子设备中会增加电子设备的存储负担。为此，本申请实施例提出了一种训练数据筛选方法，可以对数据集中的训练数据进行筛选，以解决上述问题，具体实施方式可以参见下述各个实施例。

接下来，对本申请实施例提供的训练数据筛选方法的执行主体进行介绍。

本申请实施例提供的训练数据筛选方法的执行主体为电子设备，该电子设备中可以存储有数据集，该数据集中可以存储有M个训练数据，并且该电子设备可以基于数据集中的M个训练数据对初始模型进行训练，以确定M个训练数据的训练难度值。

作为一种示例，该电子设备可以为终端。该终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal Computer，个人计算机)、手机、智能手机、PDA(Personal DigitalAssistant，个人数字助手)、掌上电脑PPC(Pocket PC)、平板电脑等。

作为另一种示例，该电子设备可以为服务器。该服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

本领域技术人员应能理解上述电子设备仅为举例，其他现有的或今后可能出现的电子设备如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。

介绍完本申请实施例提供的训练数据筛选方法的执行主体之后，接下来对本申请实施例提供的训练数据筛选方法进行详细的解释说明。

图1是根据一示例性实施例示出的一种训练数据筛选方法的流程图，该方法应用于上述电子设备中。请参考图1，该方法可以包括如下步骤：

步骤101：基于数据集中的M个训练数据对初始模型进行训练，M为大于1的整数。

在实施中，若训练数据为图像，基于M个训练数据对初始模型进行训练可以包括学习如何进行图像分类、学习如何进行图像检测、再或者，学习如何进行图像分割。

其中，学习如何进行图像分类后，可以得到能够用于进行图像分类的模型。

其中，学习如何进行图像检测后，可以得到能够用于进行图像检测的模型。

其中，学习如何进行图像分割后，可以得到能够用于进行图像分割的模型。

在一些实施例中，初始模型可以为神经网络模型，该神经网络模型可以为BP(BackPropagation)神经网络、RNN(Recurrent Neural Network，循环神经网络)、CNN(Convolutional Neural Networks，卷积神经网络)等。

作为一种示例，该M个训练数据中的每个训练数据可以带有标签，在训练初始模型进行图像分类以得到用于图像分类的模型的过程中，可以将数据集中的M个训练数据以及各个训练数据对应的标签输入初始模型中进行训练。示例性地，可以将一个训练数据与该一个训练数据对应的标签作为一组训练样本，将M组训练样本多次输入初始模型中进行训练，并且在训练过程中不断调整模型的参数，直到模型的输出与M个训练数据对应的标签均比较接近，可以认为模型训练结束。

其中，训练数据带有的标签可以用于指示该训练数据所属的类别。例如，训练数据的标签可以为人、车、猫、树等等。在训练数据为图像的情况下，若训练数据带有的标签为人，可以表示该训练数据属于人这一类别，即该图像中的内容属于人这一类别。

作为另一种示例，该M个训练数据中的每个训练数据可以带有标签，在训练初始模型进行图像检测以得到用于图像检测的模型的过程中，可以将数据集中的M个训练数据、各个训练数据中检测区域的坐标、以及各个训练数据中检测区域对应的标签输入初始模型中进行训练。示例性地，可以将一个训练数据、该一个训练数据中检测区域的坐标、以及该一个训练数据中检测区域对应的标签作为一组训练样本，将M组训练样本多次输入初始模型中进行训练，并且在训练过程中不断调整模型的参数，直到模型的输出与M个训练数据中每个检测区域对应的标签接近，可以认为模型训练结束。

作为又一种示例，该M个训练数据中的每个训练数据可以带有标签，在训练初始模型进行图像分割以得到用于图像分割的模型的过程中，可以将数据集中的M个训练数据、各个训练数据中检测区域的坐标、以及各个训练数据的检测区域中每个像素点对应的标签输入初始模型中进行训练。示例性地，可以将一个训练数据、该一个训练数据中检测区域的坐标、以及该一个训练数据的检测区域中每个像素点对应的标签作为一组训练样本，将M组训练样本多次输入初始模型中进行训练，并且在训练过程中不断调整模型的参数，直到模型的输出与M个训练数据中每个检测区域中每个像素点对应的标签接近，可以认为模型训练结束。

作为一种示例，神经网络模型可以包括输入层、池化层、全连接层、输出层等。在对初始模型进行图像分类训练的过程中，M组训练样本依次通过输入层、池化层、全连接层和输出层，可以输出M个训练数据对应的标签。

需要说明的是，上述仅是以神经网络模型包括输入层、池化层、全连接层和输出层为例进行说明，在另一种示例中，神经网络模型还可以包括卷积层、上采样层等等。

步骤102：在训练过程中，确定M个训练数据的训练难度值，得到M个目标训练难度值，目标训练难度值用于指示初始模型对所对应的训练数据的学习难度。

其中，训练数据的学习难度越大，该训练数据越难被初始模型学习，训练数据的学习难度越小，该训练数据越容易被初始模型学习。即对于初始模型来说，训练数据的目标训练难度值越大，则越难将该训练数据正确分类，训练数据的目标训练难度值越小，则越容易将该训练数据正确分类。

在训练过程中，确定M个训练数据的训练难度值，得到M个目标训练难度值可以包括如下两种实现方式：

第一种实现方式：若初始模型的数量为1个，可以基于M个训练数据，对初始模型进行多次训练。每完成一次训练，分别确定在本次训练中M个训练数据中的各个训练数据的第一训练难度值。确定各个训练数据在多次训练中的第一训练难度值的均值，得到各个训练数据的第二训练难度值。将M个训练数据的第二训练难度值确定为M个目标训练难度值。

也就是说，可以基于M个训练数据对初始模型进行多次训练，各个训练数据都被多次输入初始模型中进行训练。并且每完成一次训练，可以确定在本次训练中各个训练数据的第一训练难度值，可以确定M个第一训练难度值。对于M个训练数据中的任一训练数据来说，经过多次训练后，可以确定该任一训练数据的多个第一训练难度值，将多个第一训练难度值的均值确定为该任一训练数据的第二训练难度值。对于M个训练数据均进行上述操作后，可以确定M个训练数据中各个训练数据的第二训练难度值，进而可以将M个训练数据的第二训练难度值确定为M个目标训练难度值。

作为一种示例，对于M个训练数据中的任一训练数据来说，将该任一训练数据多次输入初始模型中进行训练，每完成一次训练，可以根据初始模型本次与该任一训练数据相关的输出，确定该任一训练数据在本次训练中的第一训练难度值，进行多次训练后，该初始模型的训练结束，可以确定该任一训练数据的多个第一训练难度值，然后将多个第一训练难度值求和取平均值，得到该任一训练数据的第二训练难度值。对于M个训练数据中的每个训练数据均按照上述方式进行操作后，可以确定M个训练数据中每个训练数据的第二训练难度值，得到M个第二训练难度值，将该M个第二训练难度值确定为M个目标训练难度值。

在一种可能的实现方式中，在M个训练数据带有标签的情况下，每完成一次训练，分别确定在本次训练中M个训练数据中的各个训练数据的第一训练难度值的具体实现可以包括：每完成一次训练，确定在本次训练中各个训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的一项或多项。基于各个训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的一项或多项，确定各个训练数据的第一训练难度值。

也就是说，在M个训练数据带有标签的情况下，对于M个训练数据中的任一训练数据，每完成一次训练，可以确定在本次训练中该任一数据的第一分类误差、第二分类误差值、交叉熵损失值和信息熵中的至少一项，然后根据该任一训练数据的第一分类误差、第二分类误差值、交叉熵损失值和信息熵中至少一项确定该任一训练数据的第一训练难度值。对于M个训练数据中的各个训练数据均按照上述方式操作，可以确定M个训练数据中各个训练数据在本次训练中的第一训练难度值。

在实施中，每完成一次训练，确定在本次训练中各个训练数据的第一分类误差值的具体实现可以包括：对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的第一概率和第二概率，第一概率是指初始模型输出的任一训练数据属于第一标签的概率，第一标签为该任一训练数据对应的标签，第二概率是指初始模型输出的任一训练数据属于除第一标签之外的其他标签的最大概率。基于第一概率和第二概率，确定在本次训练中任一训练数据的第一分类误差值，任一训练数据的第一分类误差值与任一训练数据的第一训练难度值负相关。

其中，对于任一训练数据来说，在初始模型训练的过程中，初始模型输出的是该任一训练数据可能属于各种标签的概率，即初始模型输出的是多个概率，且一个概率与一种标签对应。第一概率是初始模型输出的该任一数据可能属于第一标签的概率。第二概率则是初始模型输出的多个概率中，除第一概率之外的最大概率，该最大概率与除第一标签之外的其他标签中的某一标签对应。

在一些实施例中，对于M个训练数据中的任一训练数据来说，每完成一次训练，可以直接获取初始模型本次输出的该任一训练数据的多个概率，将与第一标签对应的概率确定为第一概率，将多个概率中除第一概率之外的最大概率确定为第二概率，然后基于第一概率和第二概率，通过公式(1)可以确定任一训练数据的第一分类误差值。对于M个训练数据中的各个训练数据均按照上述方式操作，可以确定各个训练数据的第一分类误差值。

m＝β_k-argmax_k'≠kβ_k' (1)

其中，m为第一分类误差值，k为第一标签，k'为除第一标签之外的其他标签，β_k为第一概率，β_k'为除第一标签之外的任一训练数据可能属于其他标签的概率，argmax_k'≠kβ_k'为第二概率。

作为一种示例，对于任一训练数据来说，通过上述公式(1)可以确定第一分类误差值m。若该任一训练数据在本次训练中被正确分类，m大于0，若该任一训练数据在本次训练中被错误分类，m小于或等于0。且m的值越小，可以认为该任一训练数据的分类难度越大，m的值越大，可以认为该任一训练数据的分类难度越小。即任一训练数据的第一分类误差值与该任一训练数据的第一训练难度值负相关。

示例性地，假设训练数据A对应的标签为第一标签，且初始模型输出的训练数据A的多个概率分别为0.1，0.15，0.03，0.12，0.6。其中，第一标签对应的概率为0.6，即第一概率为0.6，除第一标签之外其他标签对应的最大概率为0.15，即第二概率为0.15，通过上述公式(1)可以确定训练数据A的第一分类误差值为0.6-0.15＝0.45。

作为一种示例，由于任一训练数据的第一分类误差值与该任一训练数据的第一训练难度值负相关，因此可以将任一训练数据的第一分类误差值的倒数确定为该任一训练数据的第一训练难度值。

在实施中，每完成一次训练，确定在本次训练中各个训练数据的第二分类误差值的具体实现可以包括：对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的第一变量和第二变量，第一变量是指任一训练数据的特征向量与第一分类超平面的距离，第一分类超平面为第一标签对应的分类超平面，第一标签为任一训练数据对应的标签，第二变量是指任一训练数据的特征向量与至少一个第二分类超平面的距离中的最大距离，至少一个第二分类超平面为除第一标签之外的其他标签对应的分类超平面。基于第一变量和第二变量，确定在本次训练中任一训练数据的第二分类误差值，任一训练数据的第二分类误差值与任一训练数据的第一训练难度值负相关。

其中，初始训练模型中可以包括全连接层，在初始模型训练的过程中，若是将全连接层看做线性SVM(Support Vector Machine，支持向量机)，可以确定全连接层接收到的任一训练数据的特征向量与各个分类超平面的距离，且一个分类超平面与一个标签对应，即初始模型输出的是该任一训练数据的多个距离，且一个距离与一种标签对应。第一变量是初始模型输出的该任一数据与第一标签对应的距离。第二变量则是初始模型输出的多个距离中，除与第一标签对应的距离之外的最大距离，该最大距离与除第一标签之外的其他标签中的某一标签对应。

在一些实施例中，对于M个训练数据中的任一训练数据来说，每完成一次训练，可以直接获取初始模型本次输出的该任一训练数据的多个距离，将与第一标签对应的距离确定为第一变量，将多个距离中除与第一标签对应的距离之外的最大距离确定为第二变量，然后基于第一变量和第二变量，通过公式(2)可以确定任一训练数据的第二分类误差值。对于M个训练数据中的各个训练数据均按照上述方式操作，可以确定各个训练数据的第二分类误差值。

其中，s为第二分类误差值，w_kx为第一变量，

为第二变量，k为第一标签，k'为除第一标签之外的其他标签，w_k'x为除与第一标签对应的距离之外的其他距离，w_k为与第一标签对应的权重，w_k'为与除第一标签之外的其他标签对应的权重。另外，在对初始模型训练的过程中，可以根据初始模型学习的情况不断调整w_k和w_k'，但在同一次训练过程中，w_k和w_k'是不变的。

需要说明的是，在上述公式(2)中，若基于

确定的值小于0，则s的取值为0，若基于

确定的值大于或等于0，则s的取值为基于

确定的值。

示例性地，假设训练数据B对应的标签为第一标签，且初始模型输出的训练数据B的多个距离分别为0.1，0.15，0.03，0.12，0.6。其中，第一标签对应的距离为0.6，即第一变量为0.6，除第一标签之外其他标签对应的最大变量为0.15，即第二变量为0.15，通过上述公式(2)可以确定训练数据B的第二分类误差值为1+0.15-0.6＝0.55。

作为一种示例，由于任一训练数据的第二分类误差值与该任一训练数据的第一训练难度值负相关，因此可以将任一训练数据的第二分类误差值的倒数确定为该任一训练数据的第一训练难度值。

在实施中，每完成一次训练，确定在本次训练中各个训练数据的交叉熵损失值的具体实现可以包括：对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的第一概率，第一概率是指初始模型输出的任一训练数据属于第一标签的概率，第一标签为任一训练数据对应的标签。基于第一概率，确定在本次训练中任一训练数据的交叉熵损失值，任一训练数据的交叉熵损失值与任一训练数据的第一训练难度值正相关。

其中，对于任一训练数据来说，在初始模型训练的过程中，初始模型输出的是该任一训练数据可能属于各种标签的概率，即初始模型输出的是多个概率，且一个概率与一种标签对应。第一概率是初始模型输出的该任一数据可能属于第一标签的概率。

在一些实施例中，对于M个训练数据中的任一训练数据来说，每完成一次训练，可以直接获取初始模型本次输出的该任一训练数据的多个概率，将与第一标签对应的概率确定为第一概率，然后基于第一概率，通过公式(3)可以确定任一训练数据的交叉熵损失值。对于M个训练数据中的各个训练数据均按照上述方式操作，可以确定各个训练数据的交叉熵损失值。

其中，l为交叉熵损失值，k取不同的值时y_k为按照one-hot(独热码)编码方式确定的不同的标签对应的值，k取不同的值时β_k为任一训练数据属于不同标签的概率，P为标签的数量。若k的取值与第一标签对应，则y_k为按照one-hot编码方式确定的第一标签对应的值，β_k为第一概率。

作为一种示例，对于上述任一训练数据来说，由于y_k与第一标签对应，且第一标签是该任一训练数据对应的标签，因此y_k的取值为1，上述公式(3)可以化简为l＝-y_klog(β_k)。在k取不同的值时，y_k与除第一标签之外的其他标签对应，在这种情况下y_k的取值均为0。也就是说，在y_k与该任一训练数据对应的标签相对应的情况下，y_k的取值为1，其他情况下y_k的取值均为0。

示例性地，假设训练数据C对应的标签为第一标签，且初始模型输出的训练数据C的多个概率分别为0.1，0.15，0.03，0.12，0.6。其中，第一标签对应的概率为0.6，即第一概率为0.6，通过上述公式(3)可以确定训练数据C的交叉熵损失值为-log0.6≈0.22。

作为一种示例，由于任一训练数据的交叉熵损失值与该任一训练数据的第一训练难度值正相关，因此可以直接将任一训练数据的交叉熵损失值确定为该任一训练数据的第一训练难度值。

在实施中，每完成一次训练，确定在本次训练中各个训练数据的信息熵的具体实现可以包括：对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的P个第三概率，P为大于1的整数，P个第三概率是指初始模型输出的任一训练数据分别属于P个标签的概率。基于P个第三概率，确定在本次训练中任一训练数据的信息熵，任一训练数据的信息熵与任一训练数据的第一训练难度值正相关。

其中，对于任一训练数据来说，在初始模型训练的过程中，初始模型输出的是该任一训练数据可能属于各种标签的概率，即初始模型输出的是多个概率，且一个概率与一种标签对应。因此，P个第三概率是初始模型输出的该任一数据可能分别属于P个标签的概率。

在一些实施例中，对于M个训练数据中的任一训练数据来说，每完成一次训练，可以直接获取初始模型本次输出的该任一训练数据的多个第三概率，然后根据P个第三概率，通过公式(4)可以确定任一训练数据的信息熵。对于M个训练数据中的各个训练数据均按照上述方式操作，可以确定各个训练数据的信息熵。

其中，H为交叉熵损失值，k取不同的值时β_k为任一训练数据属于不同标签的第三概率，P为标签的数量。

作为一种示例，对于任一训练数据来说，通过上述公式(4)可以确定信息熵H。如果确定的H的值越大，说明出现混淆的可能性越大，可以认为该任一训练数据的训练难度越大，如果确定的H的值越小，说明出现混淆的可能性越小，可以认为该任一训练数据的分类难度越小。即任一训练数据的信息熵与该任一训练数据的第一训练难度值正相关。

示例性地，假设初始模型输出的训练数据D的多个概率分别为0.1，0.2，0.7。通过上述公式(4)可以确定训练数据D的信息熵为-(0.1·log0.1+0.2·log0.2+0.7·log0.7)≈0.35。

作为一种示例，由于任一训练数据的信息熵与该任一训练数据的第一训练难度值正相关，因此可以直接将任一训练数据的信息熵确定为该任一训练数据的第一训练难度值。

需要说明的是，上述方式是在训练数据带有标签的情况下确定本次训练中各个训练数据的第一训练难度值。在另一种可能的实现方式中，在训练数据不带标签的情况下，可以通过确定各个训练数据的信息熵来确定各个训练数据的第一训练难度值，在该种实现方式中，由于任一训练数据的信息熵与任一训练数据的第一训练难度值正相关，因此可以直接将训练数据的信息熵确定为训练数据的第一训练难度值。该种实现方式的具体实现可参见上述确定在本次训练中各个训练数据的信息熵的相关描述，本申请实施例在此不再赘述。

在一些实施例中，若基于任一训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的至少两项来确定该任一训练数据的第一训练难度值，可以为选择的至少两项中的每一项设置权重，然后基于权重和选择的至少两项确定该任一训练数据的第一训练难度值。

示例性地，假设基于任一训练数据的第一分类误差值和交叉熵损失值确定任一训练数据的第一训练难度值，由于第一分类误差值与第一训练难度值负相关，因此可以设置第一分类误差值的权重为1/n，又由于交叉熵损失值与第一训练难度值正相关，因此可以设置交叉熵损失值的权重为n，然后基于设置的第一分类误差值的权重、交叉熵损失值的权重、第一分类误差值和交叉熵损失值，确定该任一训练数据的第一训练难度值。

第二种实现方式：若初始模型的数量为多个，可以基于M个训练数据，对多个初始模型分别进行训练。每完成一个初始模型的训练，分别确定针对当前的初始模型的训练，M个训练数据中的各个训练数据的第二训练难度值，其中，各个训练数据的第二训练难度值是基于多个第一训练难度值确定的，多个第一训练难度值是在当前初始模型的多次训练中确定。确定各个训练数据针对多个初始模型的训练的第二训练难度值的均值，得到各个训练数据的第三训练难度值。将M个训练数据的第三训练难度值确定为M个目标训练难度值。

其中，多个初始模型中每两个初始模型的模型初始参数和/或模型架构不相同。

也就是说，如果初始模型的数量为多个，对于每个初始模型，可以基于M个训练数据进行多次训练。对于M个训练数据中的任一训练数据，可以将该任一训练数据分别多次输入每个初始模型中进行训练，每完成一个初始模型的一次训练，可以确定针对当前初始模型的本次训练，该任一训练数据的第一训练难度值，进而可以确定针对当前初始模型的多个第一训练难度值，然后将多个第一训练难度值的均值确定为针对当前初始模型的该任一训练数据的第二训练难度值。如此可以确定该任一训练数据针对每个初始模型的第二训练难度值，得到该任一训练数据的多个第二训练难度值，然后将该任一训练数据的多个第二训练难度值的均值确定为该任一训练数据的第三训练难度值。对于M个训练数据中的各个训练数据均进行上述操作后，可以确定各个训练数据的第三训练难度值，然后将M个训练数据的第三训练难度值确定为M个目标训练难度值。

需要说明的是，上述仅是以训练初始模型进行图像分类以得到用于图像分类的模型的过程为例，说明如何确定M个训练数据的目标难度值。在另一些实施例中，还可以训练初始模型进行图像检测以得到用于图像检测的模型，将一个训练数据中多个检测区域的训练难度值之和确定为该训练数据的目标难度值。或者，还可以训练初始模型进行图像分割以得到用于图像分割的模型，将一个训练数据的多个检测区域中每个像素点的训练难度值之和确定为该训练数据的目标难度值。本申请实施例对此不做限定。

步骤103：根据M个目标训练难度值，从M个训练数据中筛选目标训练数据。

数据集中训练数据的数据量通常很大，且有些训练数据的训练难度较低，对于初始模型来说比较容易学习。但如果这样的训练数据很多的话，不但对提高模型的性能没有帮助，还会占用电子设备的存储空间，浪费电子设备的计算资源，增大模型训练所需的时间，降低模型训练的效率。因此，需要对数据集中M个训练数据进行筛选，确定目标训练数据，以降低电子设备存储压力，并提高模型训练的效率。

在实施中，若初始模型的数量为多个，根据M个目标训练难度值，从M个训练数据中筛选目标训练数据的具体实现可以包括：按照M个目标训练难度值从大到小的顺序，对M个训练数据进行排序。从排序后的M个训练数据中，确定与各个初始模型对应的候选训练数据，得到多组候选训练数据，其中，对于多个初始模型中的任一初始模型，基于任一初始模型对应的候选训练数据训练得到的模型的识别准确率与基于M个训练数据训练得到的模型的识别准确率的差值小于差值阈值。将多组候选训练数据的并集确定为目标训练数据。

需要说明的是，差值阈值可以由用户根据实际需要进行设置，也可以由电子设备默认设置，本申请实施例对此不做限定。例如，差值阈值可以为5％。

其中，基于任一初始模型对应的候选训练数据训练得到的模型的识别准确率与基于M个训练数据训练得到的模型的识别准确率的差值小于差值阈值，可以说明基于任一初始模型对应的候选训练数据训练得到的模型的性能可以达到基于M个训练数据训练得到的模型的性能，因此，在对该任一初始模型进行训练的过程中，可以直接基于该任一初始模型对应的候选训练数据进行训练，减少了训练数据的数据量，提高了模型训练的效率。

也就是说，若初始模型的数量为多个，可以先将M个训练数据按照训练难度从大到小的顺序进行排序，然后从排序后的M个训练数据中，确定与各个初始模型对应的候选训练数据。其中，对于多个初始模型中的任一初始模型，基于该任一初始模型对应的候选训练数据训练得到的模型的性能与基于M个训练数据训练得到的模型的性能相近。然后将多组训练数据组合在一起，将重复的训练数据分为一队，在每队中仅保留一个训练数据，删除同一队中其他训练数据，将执行删除操作后的多组训练数据确定为目标训练数据。

在一些实施例中，从排序后的M个训练数据中，确定与各个初始模型对应的候选训练数据，得到多组候选训练数据的具体实现可以包括：对于多个初始模型中的任一初始模型，按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据，其中，N为大于1的整数，且N小于M。基于当前选择的N个训练数据对任一初始模型进行训练，得到第一模型。确定第一模型的第一识别准确率。确定第一模型的第一识别准确率与第二模型的第二识别准确率的差值，第二模型是基于M个训练数据对任一初始模型训练得到的。若第一识别准确率与第二识别准确率的差值大于或等于差值阈值，重新确定N，返回按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据的步骤，直到第一识别准确率与第二识别准确率的差值小于差值阈值，将当前选择的N个训练数据确定为任一初始模型的候选训练数据。

需要说明的是，N可以由用户根据实际需要进行设置，并且可以根据情况进行调整，也可以由电子设备默认设置，本申请实施例对此不做限定。

也就是说，对于多个初始模型中的任一初始模型，可以先从排序后的M个训练数据中按照从前往后的顺序选择前N个训练数据，然后基于选择的N个训练数据对该任一初始模型进行训练，得到达到需求的第一模型。然后基于电子设备中存储的验证集中的验证数据，对第一模型的性能进行验证，得到第一模型的第一识别准确率。获取基于M个训练数据对该任一初始模型训练得到的第二模型，同理确定该第二模型的第二识别准确率。然后确定第一识别准确率与第二识别准确率的差值，若该差值大于或等于差值阈值，可以认为该第一模型的性能未达到第二模型的性能，重新确定N，并返回从排序后的M个训练数据中按照从前往后的顺序选择前N个训练数据的步骤，继续按照步骤向下执行，直到第一识别准确率和第二识别准确率的差值小于差值阈值，可以认为第一模型的性能已经达到了第二模型的性能，可以将当前选择的N个训练数据确定为该任一初始模型的候选训练数据。对多个初始模型中各个初始模型均按照上述方法进行操作，可以确定多个初始模型中各个初始模型的候选训练数据，得到多组候选训练数据。

作为一种示例，按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据可以包括两种实现方式：

第一种实现方式：直接从排序后的M个训练数据中选择排序靠前的前N个训练数据。

第二种实现方式：若M个训练数据中包括属于多种标签的训练数据，按照M个训练数据中每个训练数据的标签，在排序后的M个训练数据中将属于相同标签的训练数据划为一组，同组中的训练数据是按照训练难度值从大到小的顺序排列。按照从前往后的顺序，分别从划分后的各组中选择前指定比例个训练数据，得到N个训练数据。

其中，指定比例可以由用户根据实际需求进行设置，且可以根据情况进行调整，也可以由电子设备默认设置，本申请实施例对此不做限定。例如，指定比例可以为10％。

也就是说，若M个训练数据中包括属于多种标签的训练数据，可以先按照M个训练数据的标签，将排序后的M个训练数据进行分组，将属于同一标签的训练数据分为一组，并且同组中的训练数据按照训练难度值从大到小的顺序进行排列。然后按照从前往后的顺序，分别从划分后的各组中选择前指定比例个训练数据，进而得到N个训练数据。

示例性地，假设M为10000，指定比例为10％，M个训练数据被划分为3组，第一组包括5000个训练数据，第二组包括3000个训练数据，第三组包括2000个训练数据，则第一组选择500个训练数据，第二组选择300个训练数据，第三组选择200个训练数据，将三组中选择的训练数据确定为1000个训练数据。

作为一种示例，确定第一模型的第一识别准确率可以包括：电子设备中可以存储有验证集，验证集中存储有多个验证数据，可以将多个验证数据输入第一模型中，根据第一模型的输出与多个验证数据对应的标签的差别，确定该第一模型的准确率。同理，可以确定第二模型的第二识别准确率。

作为一种示例，若第一识别准确率与第二识别准确率的差值大于或等于差值阈值，重新确定N的具体实现可以包括：采用二分法确定N的值。第一次确定M的50％为N，若确定的第一识别准确率与第二识别准确率的差值大于或等于差值阈值，可以重新确定M的25％为N，重新确定第一识别准确率与第二识别准确率的差值。若第一识别准确率与第二识别准确率的差值大于或等于差值阈值，且第一次确定的差值小于第二次确定的差值，可以确定M的37.5％为N，继续确定第一识别准确率与第二识别准确率的差值；若第一识别准确率与第二识别准确率的差值大于或等于差值阈值，且第一次确定的差值大于第二次确定的差值，可以确定M的12.5％为N，继续确定第一识别准确率与第二识别准确率的差值，直到第一识别准确率与第二识别准确率的差值小于差值阈值，不需要再重新确定N。

作为另一种示例，若第一识别准确率与第二识别准确率的差值大于或等于差值阈值，重新确定N的具体实现可以包括：第一次确定M个10％为N，第二次确定M个20％为N，第三次确定M个30％为N，以此类推，直到第一识别准确率与第二识别准确率的差值小于差值阈值，不需要再重新确定N。

在实施中，若初始模型的数量为一个，可以根据上述实施例中确定任一初始模型的候选训练数据的方式确定初始模型的候选训练数据，并将该初始模型的候选训练数据确定为目标训练数据。

进一步地，若电子设备中存储量一批新的训练数据，可以按照本申请实施例的方式对新的训练数据进行筛选，再将筛选后的新的训练数据与目标训练数据合并存储在数据集中。若需要进一步精简，可以将数据集中存储的训练数据按照本申请实施例的方式进一步进行筛选。

进一步地，训练数据可能不能一次性全部得到，在不同的时间可能会采集到不同的训练数据。如果用户需要使用的目标模型对指定训练数据的分类效果不是很好，可以使用用户上传的带有标签的指定训练数据和目标训练数据对该目标模型进行训练，使得该目标模型可以适用包括指定训练数据的新场景。其中，假设训练数据为图像，指定训练数据可以为指定角度的图像。

示例性地，用户可以上传Q个带有标签的指定训练数据，然后电子设备可以选择目标训练数据中前Q个目标训练数据，基于选择的Q个目标训练数据和Q个指定训练数据对目标模型进行训练，以便得到满足用户需求的目标模型。

需要说明的是，Q为大于1的整数，且Q可以由用户根据实际需求进行设置，也可以由电子设备默认设置，本申请实施例对此不做限定。例如，Q可以为1000。

作为一种示例，通过本申请实施例的方法对训练数据进行筛选后，可以得到目标训练数据。假设目标训练数据为安防领域的训练数据，例如，目标训练数据为包括各种人、车辆的图像，可以通过目标训练数据对模型进行图像检测的训练，得到适用于安防领域的可用于进行图像检测的模型。在安防领域，若监控设备当前采集到了监控区域内的多个图像，为了确定监控区域内是否存在异常目标，可以将该多个图像输入该适用于安防领域的可用于进行图像检测的模型中，得到每个图像的检测结果，该检测结果用于指示对应的图像中是否检测到异常目标。如此，可以确定监控区域内是否存在异常目标，提高监控区域的安全性。

作为另一种示例，通过本申请实施例的方法对训练数据进行筛选后，可以得到目标训练数据。假设目标训练数据为各种类别的图像，例如，目标训练数据为包括各种人、猫、树、狗等等的图像，可以通过目标训练数据对模型进行图像分类的训练，得到可用于进行图像分类的模型。在一些具有智能相册分类功能的设备中，为了对用户存储的多个图像进行分类，可以将用户存储的多个图像输入可进行图像分类的模型中，得到每个图像的类别，将属于相同类别的图像分为同一类，如此，可以按照类别将用户设备的相册中的多个图像进行分类，便于用户查看，进而带给用户更好地使用体验。

在本申请实施例中，基于数据集中的M个训练数据对初始模型进行训练，并在训练过程中，确定初始模型对该M个训练数据中每个训练数据的学习难度，得到每个训练数据的目标训练难度值。对于训练数据来说，目标训练难度值越小，说明该训练数据越易学习，但目标训练难度值小的训练数据对模型训练的帮助不大，且会增加模型训练的时间。因此，可以根据M个目标训练难度值，对M个训练数据进行筛选，确定出目标训练数据，如此，可以减少训练数据的数据量，从而不仅降低了电子设备的存储负担，还减少了模型训练所需的时间，提高了模型训练的效率。

图3是根据一示例性实施例示出的一种训练数据筛选装置的结构示意图，该训练数据筛选装置可以由软件、硬件或者两者的结合实现成为电子设备的部分或者全部。请参考图3，该装置包括：训练模块301、确定模块302和筛选模块303。

训练模块301，用于基于数据集中的M个训练数据对初始模型进行训练，M为大于1的整数；

确定模块302，用于在训练过程中，确定M个训练数据的训练难度值，得到M个目标训练难度值，目标训练难度值用于指示初始模型对所对应的训练数据的学习难度；

筛选模块303，用于根据M个目标训练难度值，从M个训练数据中筛选目标训练数据。

在本申请实施例一种可能的实现方式中，确定模块302用于：

基于M个训练数据，对初始模型进行多次训练；

每完成一次训练，分别确定在本次训练中M个训练数据中的各个训练数据的第一训练难度值；

将M个训练数据的第二训练难度值确定为M个目标训练难度值。

在本申请实施例一种可能的实现方式中，确定模块302用于：

在M个训练数据带有标签的情况下，每完成一次训练，确定在本次训练中各个训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的一项或多项；

基于各个训练数据的第一分类误差值、第二分类误差值、交叉熵损失值和信息熵中的一项或多项，确定各个训练数据的第一训练难度值。

在本申请实施例一种可能的实现方式中，确定模块302用于：

对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的第一概率和第二概率，第一概率是指初始模型输出的任一训练数据属于第一标签的概率，第一标签为任一训练数据对应的标签，第二概率是指初始模型输出的任一训练数据属于除第一标签之外的其他标签的最大概率；

基于第一概率和第二概率，确定在本次训练中任一训练数据的第一分类误差值，任一训练数据的第一分类误差值与任一训练数据的第一训练难度值负相关。

在本申请实施例一种可能的实现方式中，确定模块302用于：

对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的第一变量和第二变量，第一变量是指任一训练数据的特征向量与第一分类超平面的距离，第一分类超平面为第一标签对应的分类超平面，第一标签为任一训练数据对应的标签，第二变量是指任一训练数据的特征向量与至少一个第二分类超平面的距离中的最大距离，至少一个第二分类超平面为除第一标签之外的其他标签对应的分类超平面；

基于第一变量和第二变量，确定在本次训练中任一训练数据的第二分类误差值，任一训练数据的第二分类误差值与任一训练数据的第一训练难度值负相关。

在本申请实施例一种可能的实现方式中，确定模块302用于：

对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的第一概率，第一概率是指初始模型输出的任一训练数据属于第一标签的概率，第一标签为任一训练数据对应的标签；

基于第一概率，确定在本次训练中任一训练数据的交叉熵损失值，任一训练数据的交叉熵损失值与任一训练数据的第一训练难度值正相关。

在本申请实施例一种可能的实现方式中，确定模块302用于：

对于M个训练数据中的任一训练数据，每完成一次训练，获取任一训练数据对应的P个第三概率，P为大于1的整数，P个第三概率是指初始模型输出的任一训练数据分别属于P个标签的概率；

基于P个第三概率，确定在本次训练中任一训练数据的信息熵，任一训练数据的信息熵与任一训练数据的第一训练难度值正相关。

在本申请实施例一种可能的实现方式中，筛选模块303用于：

若初始模型的数量为多个，按照M个目标训练难度值从大到小的顺序，对M个训练数据进行排序；

从排序后的M个训练数据中，确定与各个初始模型对应的候选训练数据，得到多组候选训练数据，其中，对于多个初始模型中的任一初始模型，基于任一初始模型对应的候选训练数据训练得到的模型的识别准确率与基于M个训练数据训练得到的模型的识别准确率的差值小于差值阈值；

将多组候选训练数据的并集确定为目标训练数据。

在本申请实施例一种可能的实现方式中，筛选模块303用于：

对于多个初始模型中的任一初始模型，按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据，其中，N为大于1的整数，且N小于M；

基于当前选择的N个训练数据对任一初始模型进行训练，得到第一模型；

确定第一模型的第一识别准确率；

确定第一模型的第一识别准确率与第二模型的第二识别准确率的差值，第二模型是基于M个训练数据对任一初始模型训练得到的；

若第一识别准确率与第二识别准确率的差值大于或等于差值阈值，重新确定N，返回按照从前往后的顺序，从排序后的M个训练数据中选择前N个训练数据的步骤，直到第一识别准确率与第二识别准确率的差值小于差值阈值，将当前选择的N个训练数据确定为任一初始模型的候选训练数据。

在本申请实施例一种可能的实现方式中，筛选模块303用于：

若M个训练数据中包括属于多种标签的训练数据，按照M个训练数据中每个训练数据的标签，在排序后的M个训练数据中将属于相同标签的训练数据划为一组，同组中的训练数据是按照训练难度值从大到小的顺序排列；

按照从前往后的顺序，分别从划分后的各组中选择前指定比例个训练数据，得到N个训练数据。

在本申请实施例一种可能的实现方式中，确定模块302用于：

若初始模型的数量为多个，基于M个训练数据，对多个初始模型分别进行训练；

每完成一个初始模型的训练，分别确定针对当前的初始模型的训练，M个训练数据中的各个训练数据的第二训练难度值，其中，各个训练数据的第二训练难度值是基于多个第一训练难度值确定的，多个第一训练难度值是在当前初始模型的多次训练中确定；

确定各个训练数据针对多个初始模型的训练的第二训练难度值的均值，得到各个训练数据的第三训练难度值；

将M个训练数据的第三训练难度值确定为M个目标训练难度值。

需要说明的是：上述实施例提供的训练数据筛选装置在对训练数据进行筛选时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的训练数据筛选装置与训练数据筛选方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是根据一示例性实施例示出的一种电子设备的结构示意图。该电子设备可以为终端，也可以为服务器。该电子设备400包括中央处理单元(CPU)401、包括随机存取存储器(RAM)402和只读存储器(ROM)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。电子设备400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为电子设备400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。

根据本申请的各种实施例，电子设备400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即电子设备400可以通过连接在系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中训练数据筛选方法的步骤。例如，所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请实施例提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的训练数据筛选方法的步骤。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种训练数据筛选方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述在训练过程中，确定所述M个训练数据的训练难度值，得到M个目标训练难度值，包括：

基于所述M个训练数据，对所述初始模型进行多次训练；

3.如权利要求2所述的方法，其特征在于，在所述M个训练数据带有标签的情况下，所述每完成一次训练，分别确定在本次训练中所述M个训练数据中的各个训练数据的第一训练难度值，包括：

4.如权利要求3所述的方法，其特征在于，所述每完成一次训练，确定在本次训练中所述各个训练数据的第一分类误差值，包括：

5.如权利要求3所述的方法，其特征在于，所述每完成一次训练，确定在本次训练中所述各个训练数据的第二分类误差值，包括：

6.如权利要求3所述的方法，其特征在于，所述每完成一次训练，确定在本次训练中所述各个训练数据的交叉熵损失值，包括：

7.如权利要求1所述的方法，其特征在于，若所述初始模型的数量为多个，所述根据所述M个目标训练难度值，从所述M个训练数据中筛选目标训练数据，包括：

将所述多组候选训练数据的并集确定为所述目标训练数据。

8.如权利要求7所述的方法，其特征在于，所述从排序后的M个训练数据中，确定与各个初始模型对应的候选训练数据，得到多组候选训练数据，包括：

确定所述第一模型的第一识别准确率；

9.一种训练数据筛选装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的程序，以实现权利要求1-8任一所述方法的步骤。