CN111931863A

CN111931863A - 误标注数据筛选方法、装置及计算机存储介质

Info

Publication number: CN111931863A
Application number: CN202010966461.XA
Authority: CN
Inventors: 耿思晴; 文博; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-11-13
Anticipated expiration: 2040-09-15
Also published as: CN111931863B

Abstract

本申请实施例公开了一种误标注数据筛选方法、装置及计算机存储介质，用于准确地筛选出训练数据集中的误标注数据。本申请实施例方法包括：在获取到训练数据集之后，利用该训练数据集对网络模型进行训练，在训练过程中，当每一次训练数据集的准确率的变化量达到预设数值范围时，对网络模型进行初始化，从而可以阻止网络模型的过拟合，并在初始化之后继续利用训练数据集对网络模型进行训练，可以计算每个子数据对应的平均参数值，并将平均参数值在预设范围内的子数据确定为误标注数据。本申请实施例的方法通过对网络模型的初始化，可以防止网络模型过拟合，不需要调节学习率，整个操作流程简单，耗时小，可准确筛选出误标注数据。

Description

误标注数据筛选方法、装置及计算机存储介质

技术领域

本申请实施例涉及数据领域，具体涉及一种误标注数据筛选方法、装置及计算机存储介质。

背景技术

数据集的标注质量是机器学习工作的核心，然而用于训练网络模型的数据集可能或多或少地带有误标注数据，误标注数据也就是人为标注的标签与真实标签不一致的数据，如一张猪的图片被误标注为“猫”。误标注数据会给网络模型的训练带来干扰，影响模型训练效果。

目前筛除误标注数据的方法是，通过不断调节学习率使网络模型在欠拟合与过拟合之间转换，并统计每个数据的平均损失值（loss值），根据loss值的大小来筛除误标注数据。

但是，通过不断调节学习率的方法来筛除误标注数据，整个操作流程复杂且耗时大，对于数据量大的数据集需要耗费很长时间，可使用性低。而且，随着训练次数的增加，无法充分将模型从过拟合状态转换成欠拟合状态，影响模型训练效果。

发明内容

本申请实施例提供了一种误标注数据筛选方法、装置及计算机存储介质，用于准确地筛选出训练数据集中的误标注数据。

本申请实施例第一方面提供了一种误标注数据筛选方法，包括：

获取训练数据集，所述训练数据集包括误标注数据；

向网络模型输入所述训练数据集，利用所述训练数据集对所述网络模型进行训练；

在每一次所述训练数据集的准确率的变化量达到预设数值范围时，对所述网络模型进行初始化，并在所述初始化之后利用所述训练数据集对所述网络模型进行训练；

计算所述训练数据集中每个子数据在每一次历元epoch下的参数值；

计算每个所述子数据对应的平均参数值，所述平均参数值为所述子数据在所有历元epoch下的参数值总和的平均值；

将平均参数值在预设范围内的子数据确定为所述误标注数据。

本申请实施例第二方面提供了一种数据筛选装置，包括：

获取单元，用于获取训练数据集，所述训练数据集包括误标注数据；

训练单元，用于向网络模型输入所述训练数据集，利用所述训练数据集对所述网络模型进行训练；

初始化单元，用于在每一次所述训练数据集的准确率的变化量达到预设数值范围时，对所述网络模型进行初始化；

所述训练单元还用于在所述初始化之后利用所述训练数据集对所述网络模型进行训练；

计算单元，用于计算所述训练数据集中每个子数据在每一次历元epoch下的参数值；

所述计算单元还用于计算每个所述子数据对应的平均参数值，所述平均参数值为所述子数据在所有历元epoch下的参数值总和的平均值；

确定单元，用于将平均参数值在预设范围内的子数据确定为所述误标注数据。

本申请实施例第三方面提供了一种数据筛选装置，包括：

处理器、存储器、总线、输入输出设备；

所述处理器与所述存储器、输入输出设备相连；

所述总线分别连接所述处理器、存储器以及输入输出设备；

所述输入输出设备用于获取训练数据集，所述训练数据集包括误标注数据；

所述处理器用于向网络模型输入所述训练数据集，利用所述训练数据集对所述网络模型进行训练，在每一次所述训练数据集的准确率的变化量达到预设数值范围时，对所述网络模型进行初始化，在所述初始化之后利用所述训练数据集对所述网络模型进行训练，计算所述训练数据集中每个子数据在每一次历元epoch下的参数值，计算每个所述子数据对应的平均参数值，所述平均参数值为所述子数据在所有历元epoch下的参数值总和的平均值，将平均参数值在预设范围内的子数据确定为所述误标注数据。

本申请实施例第四方面提供了一种计算机存储介质，计算机存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，在获取到训练数据集之后，利用该训练数据集对网络模型进行训练，在训练过程中，当每一次训练数据集的准确率的变化量达到预设数值范围时，对网络模型进行初始化，从而可以阻止网络模型的过拟合，并在初始化之后继续利用训练数据集对网络模型进行训练，因此，每个子数据会在网络模型的训练过程中经历多次epoch，则可以计算每个子数据对应的平均参数值，该平均参数值为子数据在所有epoch下的参数值总和的平均值，并将平均参数值在预设范围内的子数据确定为误标注数据。本申请实施例的方法通过对网络模型的初始化，可以防止网络模型过拟合，不需要调节学习率，整个操作流程简单，耗时小，可准确筛选出误标注数据。

附图说明

图1为本申请实施例中误标注数据筛选方法的应用环境示意图；

图2为本申请实施例中误标注数据筛选方法一个流程示意图；

图3为本申请实施例中误标注数据筛选方法另一流程示意图；

图4为本申请实施例中数据筛选装置一个结构示意图；

图5为本申请实施例中数据筛选装置另一结构示意图。

具体实施方式

请参阅图1，本申请实施例的误标注数据筛选方法的应用环境包括：

用户终端101、数据筛选装置102；

其中，数据筛选装置102可以是服务器、终端等能够进行数据处理的计算机设备。当数据筛选装置102为终端时，可以是个人电脑（personal computer，PC）、台式计算机等终端设备；当数据筛选装置102为服务器时，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云计算以及大数据和人工智能平台等基础云计算服务的云服务器。

用户终端101可以是具有显示屏、具有数据处理模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。

用户终端101与数据筛选装置102之间可以通过有线或无线通信方式进行直接或间接地连接，若通过无线网络连接，其类型可以为蜂窝状无线网络，或者是WiFi网络，或者是其他类型的无线网络；若通过有线网络连接，其一般的网络形式为光纤网络。

本申请实施例提供的误标注数据筛选方法，可以应用于如图1所示的应用环境中。数据筛选装置102可以根据本申请实施例提供的误标注数据筛选方法进行误标注数据的筛选。数据筛选装置102可以部署有网络模型，当需要进行误标注数据的筛选时，用户终端101可以向数据筛选装置102发送数据筛选请求以及需要筛选出误标注数据的训练数据集，数据筛选装置102响应该数据筛选请求，利用部署的网络模型，并根据本申请实施例的方法对该训练数据集进行误标注数据的筛选，并向用户终端101返回筛选结果。

其中，网络模型可以是基于人工智能技术的网络模型，例如可以是机器学习模型或者是计算机视觉模型。网络模型的具体种类可以是卷积神经网络模型、BP神经网络模型等神经网络模型。

下面结合图1所示的本申请实施例的应用环境，对本申请实施例中的误标注数据筛选方法进行描述：

请参阅图2，本申请实施例中误标注数据筛选方法的实施例1包括：

201、获取训练数据集；

由于数据集中的误标注数据会对模型的训练带来较大的干扰，因此，需要对用于训练模型的训练数据集进行筛选，以剔除其中的误标注数据。当需要筛选误标注数据时，可以向数据筛选装置输入该训练数据集，以便对该训练数据集进行误标注数据的筛选。

202、向网络模型输入训练数据集，利用训练数据集对网络模型进行训练；

在获取到训练数据集之后，向预先部署的网络模型输入该训练数据集，利用该训练数据集对该网络模型进行训练。本实施例中，网络模型的类型可以是任意的，其类型不作具体的限定，例如可以是二分类模型或者是预测模型，当该网络模型为二分类模型时，训练数据集可以是图像、音频等需要进行分类的多媒体数据，如需要区分出猫的图片和狗的图片的图片数据集。本实施例对训练数据集的类型亦不作限定。

203、对网络模型进行初始化，并在初始化之后利用训练数据集对网络模型进行训练；

在网络模型的训练过程中，网络模型会优先学习简单数据，再学习难数据。简单数据为网络模型容易提取数据的特征的数据，难数据是指数据的特征较难提取的数据。例如，若训练数据集为图片数据集，其中清晰的图片很容易识别图像的特征，网络模型也很容易提取出图像的某些特征，则清晰的图片即为简单数据；而对于图像模糊的图片，即使人眼也很难辨别出其中的一些图像特征，网络模型则更难提取出图像特征，因此，模糊图片即为难数据。

同时，训练数据集中还存在脏数据，脏数据包括误标注数据，同样的，网络模型会优先学习简单数据，再学习脏数据中的误标注数据。

因此，由于网络模型优先学习简单数据，在训练前期，网络模型对训练数据集的准确率会快速增长。随着越来越多的简单数据完成训练，在模型训练的后期，网络模型对训练数据集的准确率增长缓慢，准确率的增长会趋于平缓，网络模型逐渐拟合训练数据集中的难数据及脏数据中的误标注数据，最终导致模型过拟合。

网络模型的过拟合，当网络模型相对于训练数据的数量和噪声数据过于复杂时，就会发生过拟合，也就是说，网络模型在训练数据集上表现非常优秀，近乎完美地预测/区分了包括噪音数据的所有数据，导致模型泛化性差。因此，为避免网络模型对误标注数据的拟合，当训练数据集的准确率在一定时长内的变化量达到预设数值范围时，对该网络模型进行初始化，可以避免网络模型继续拟合训练数据集中的难数据。

例如，预设数值范围可以设置接近于0的数值范围，例如设置为[0，0.1%],则当训练数据集的准确率在一定时长内的变化量达到[0，0.1%]这一预设数值范围时，可以认为此时的准确率增长缓慢，准确率无明显增长，此时网络模型会继续拟合训练数据集中的难数据，因此需要对网络模型进行初始化，以阻止网络模型对训练数据集的拟合，尤其是阻止网络模型继续拟合训练数据集中的难数据。

在网络模型初始化完成之后，继续利用该训练数据集对网络模型进行训练。为得到多次训练的效果，本实施例中，在每一次训练数据集的准确率的变化量达到预设数值范围时，对网络模型进行初始化，并在初始化之后利用训练数据集对网络模型进行训练，即每一次模型训练至准确率无明显增长时，进行模型的初始化，并在初始化之后继续训练该网络模型，在准确率无明显增长时进行初始化，初始化之后继续训练网络模型，如此循环反复，可以实现对网络模型的多次训练。

例如，在第一次训练时达到准确率无明显增长的状态时，对网络模型进行初始化，完成初始化之后，继续第二次模型训练，在第二次模型训练达到准确率无明显增长的状态时，执行第二次模型的初始化，完成第二次初始化之后，继续训练网络模型……如此循环反复，直至完成预先设定的初始化次数。

204、计算训练数据集中每个子数据在每一次历元epoch下的参数值；

在网络模型的每一次训练中，训练数据集中的每个子数据都会经历一个或多个的历元epoch。本实施例中，网络模型每完成一次epoch，便计算训练数据集中每个子数据在每一次epoch下的参数值，该参数值可以用于判断子数据是否为误标注数据，即作为误标注数据的判断标准。

205、计算每个子数据对应的平均参数值；

在完成所有epoch之后，计算训练数据集中每个子数据对应的平均参数值，该平均参数值即为子数据在所有历元epoch下的参数值总和的平均值。

例如，网络模型需要完成4次初始化，意味着需要进行5次模型训练。假设每次模型训练均需要完成40个epoch，则需要完成200个epoch。因此，在计算子数据的平均参数值时，即计算该子数据在200个epoch下的参数值总和的平均值。

206、将平均参数值在预设范围内的子数据确定为误标注数据；

在计算得到每个子数据的平均参数值之后，将平均参数值在预设范围内的子数据确定为误标注数据，其中，预设范围可以根据训练数据集中误标注数据的占比确定。例如，预测训练数据集中误标注数据的占比为10%，则可以在所有子数据中取平均参数值排名前10%的子数据确定为误标注数据。

本实施例中，在获取到训练数据集之后，利用该训练数据集对网络模型进行训练，在训练过程中，当每一次训练数据集的准确率的变化量达到预设数值范围时，对网络模型进行初始化，从而可以阻止网络模型的过拟合，并在初始化之后继续利用训练数据集对网络模型进行训练，因此，每个子数据会在网络模型的训练过程中经历多次epoch，则可以计算每个子数据对应的平均参数值，该平均参数值为子数据在所有epoch下的参数值总和的平均值，并将平均参数值在预设范围内的子数据确定为误标注数据。本实施例的方法通过对网络模型的初始化，可以防止网络模型过拟合，不需要调节学习率，整个操作流程简单，耗时小，可准确筛选出误标注数据。

下面将在前述图2所示实施例的基础上，进一步详细地描述本申请实施例。

基于上述实施例1，本申请实施例中误标注数据筛选方法的实施例2包括：

本实施例中，对网络模型的初始化，可以是对网络模型的所有层级进行初始化，也可以只对网络模型的最后一层，即全连接层dense层进行初始化。相比于对所有层级进行初始化，只对dense层进行初始化，可以节约更多的初始化操作，提高网络模型的训练效率。

基于上述实施例1至2，本申请实施例中误标注数据筛选方法的实施例3包括：

本实施例中，在对dense层进行初始化的时候，可以是对网络模型的dense层进行随机初始化，即对dense层的权重进行随机初始化。

此外，对dense层进行初始化还可以有其他方式，例如，采用Xavierinitialization方法对dense层进行初始化，也可以采用何凯明参数初始化方法（Heinitialization）对dense层进行初始化。本实施例对网络模型初始化的方式不作限定。

基于上述实施例1至3，本申请实施例中误标注数据筛选方法的实施例4包括：

本实施例中，初始化的次数可以根据训练数据集中误标注数据的占比确定，即当训练数据集中误标注数据的占比较低时，初始化的次数可以设置较小的数值；当训练数据集中误标注数据占比较高时，可以设置较高的初始化次数。例如误标注数据的占比为10%时，可以设置初始化的次数为2至4次；若占比为30%，则可设置初始化次数为5至6次。根据误标注数据的占比确定初始化次数，可以结合训练数据集的实际情况，针对不同的训练数据集执行适当次数的初始化，从而取得更好的筛选效果。

基于上述实施例1至4，本申请实施例中误标注数据筛选方法的实施例5包括：

本实施例中，每个子数据在每一次epoch下的参数值可以是根据损失函数计算得到的损失值loss值。

具体的，根据损失函数计算子数据的loss值可以有多种方式。例如，对于回归问题，由于回归问题所对应的损失函数为L2损失函数和L1损失函数，二者度量了模型估计值与观测值之间的差异，因此，可以根据L2损失函数和L1损失函数计算子数据的loss值；

其中，L1损失函数和L2损失函数的表达式分别为：

式中

为真实值的权重，y为真实值，为模型的输出。各类回归模型，例如线性回归、广义线性模型（generalized linear model, GLM）和人工神经网络（artificial neural network, ANN）通过最小化L2损失函数或L1损失函数对其参数进行估计。L2损失函数和L1损失函数的不同在于，L2损失函数通过平方计算放大了估计值和真实值的距离，因此对偏离观测值的输出给予很大的惩罚。此外，L2损失函数是平滑函数，在求解其优化问题时有利于误差梯度的计算；L1损失函数对估计值和真实值之差取绝对值，对偏离真实值的输出不敏感，因此在观测中存在异常值时有利于保持模型稳定。

而对于分类问题，分类问题所对应的损失函数为0-1损失函数，其为分类准确度的度量，对分类正确的估计值取0，反之取1。

由于0-1损失函数是一个不连续的分段函数，不利于求解其最小化问题，因此在应用可构造其代理损失函数（surrogate loss）。代理损失函数是与原损失函数具有相合性（consistency）的损失函数，最小化代理损失函数所得的模型参数也是最小化原损失函数的解。当一个函数是连续凸函数，并在任意取值下是0-1损失函数的上界时，该函数可作为0-1损失函数的代理函数。

在二元分类（binary classification）问题中常见的0-1损失函数的代理损失函数有铰链损失函数（hinge loss function）、交叉熵损失函数（cross-entropy lossfunction）以及指数损失函数（exponential loss function）等。

铰链损失函数是一个分段连续函数，其在分类器分类完全正确时取0。使用铰链损失函数对应的分类器是支持向量机（support vector machine, SVM），铰链损失函数的性质决定了SVM具有稀疏性，即分类正确但概率不足1和分类错误的样本被识别为支持向量（support vector），被用于划分决策边界，其余分类完全正确的样本没有参与模型求解。

交叉熵损失函数是一个平滑函数，其本质是信息理论中的交叉熵（crossentropy）在分类问题中的应用。由交叉熵的定义可知，最小化交叉熵等价于最小化观测值和估计值的相对熵（relative entropy），即两者概率分布的Kullback-Leibler散度：

。

因此其是一个提供无偏估计的代理损失函数。交叉熵损失函数是使用最广泛的代理损失，对应的分类器例子包括logistic回归、人工神经网络和概率输出的支持向量机。

指数损失函数是对错误分类施加最大惩罚的损失函数，因此其优势是误差梯度大，对应的极小值问题在使用梯度算法时求解速度快。使用指数损失函数的分类器通常为自适应提升算法（adaptive boosting, AdaBoost），AdaBoost利用指数损失函数易于计算的特点，构建多个可快速求解的“弱”分类器成员并按成员表现进行赋权和迭代，组合得到一个“强”分类器并输出结果。

以上列举出几种损失函数计算子数据loss值，可以理解的是，本实施例根据损失函数计算子数据loss值不仅限于以上几种，本实施例对损失函数的类型不作限定。

当参数值为根据损失函数计算得到的loss值时，则计算训练数据集中每个子数据对应的平均loss值，即对子数据在所有epoch下的loss值进行加和并取其平均数，得到平均loss值。

基于上述实施例1至5，本申请实施例中误标注数据筛选方法的实施例6包括：

本实施例中，以loss值作为确定误标注数据的参数值，则将平均loss值在预设范围内的子数据确定为误标注数据。具体的，可以根据loss值的数值大小对训练数据集中的子数据进行排序，得到子数据序列。之后，在该子数据序列中，确定平均loss值在该子数据序列中最大的n个子数据为误标注数据，其中n为正整数。

例如，在子数据个数为1000的训练数据集中，误标注数据的占比为10%，即该训练数据集包括100个误标注数据。在根据平均loss值对子数据进行排序之后，确定子数据序列中平均loss值最大的100个子数据为误标注数据。

基于上述实施例1至4，本申请实施例中误标注数据筛选方法的实施例7包括：

本实施例中，每个子数据在每一次epoch下的参数值可以是在每一次epoch下的概率值。

具体的，计算子数据在每一次epoch下的概率值的方式可以是，根据softmax函数计算概率值。softmax函数即归一化指数函数，softmax函数实际上是有限项离散概率分布的梯度对数归一化，在包括多项逻辑回归、多项线性判别分析、朴素贝叶斯分类器和人工神经网络等多种基于概率的多分类问题中均有广泛应用。因此，可以使用softmax函数计算子数据在每一次epoch下的概率值。

当参数值为每一次epoch下的概率值时，同样的，可以计算训练数据集中每个子数据对应的平均概率值，即对子数据在所有epoch下的概率值进行加和并取其平均数，得到平均概率值。

若以概率值作为确定误标注数据的参数值，则将平均概率值在预设范围内的子数据确定为误标注数据。

例如，对于二分类问题，在多张狗的图片的训练数据集中，混入一张猫的图片，该猫的图片被误标注为“狗”。在完成该训练数据集的训练之后，得到每一子数据的概率值，则统计多个子数据，被分类为“狗”的概率值为0.9，被分类为“猫”的概率值为0.1。而那张被误标注为“狗”的猫图片，网络模型将其分类为“狗”的概率值为0.1，分类为“猫”的概率值为0.9。很显然，误标注数据分类为“狗”的概率值0.1与正确标注数据分类为“狗”的概率值0.9相差甚远，而与正确标注数据分类为“猫”的概率值0.1相接近，因此，可以将该被误标注为“狗”的猫图片确定为误标注数据。

请参阅图3，基于上述实施例1至7，本申请实施例中误标注数据筛选方法的实施例8包括：

301、获取训练数据集；

302、向网络模型输入训练数据集，利用训练数据集对网络模型进行训练；

303、对网络模型进行初始化，并在初始化之后利用训练数据集对网络模型进行训练；

304、计算训练数据集中每个子数据在每一次历元epoch下的参数值；

305、计算每个子数据对应的平均参数值；

306、将平均参数值在预设范围内的子数据确定为误标注数据；

步骤301至306所执行的操作与前述图2所示实施例中的步骤201至206所执行的操作类似，此处不再赘述。

307、剔除训练数据集中的误标注数据；

在确定出训练数据集中的误标注数据之后，剔除出其中的误标注数据，从而使得训练数据集标注准确，更有利于对模型的训练。

实施例1至8中，可以根据子数据的loss值或者概率值来判断子数据是否为误标注数据，可以使误标注数据的筛选更加准确，提高了方案的可实现性。

上面对本申请实施例中的误标注数据筛选方法进行了描述，下面对本申请实施例中的数据筛选装置进行描述，请参阅图4，本申请实施例中数据筛选装置一个实施例包括：

获取单元401，用于获取训练数据集，训练数据集包括误标注数据；

训练单元402，用于向网络模型输入训练数据集，利用训练数据集对网络模型进行训练；

初始化单元403，用于在每一次训练数据集的准确率的变化量达到预设数值范围时，对网络模型进行初始化；

训练单元402还用于在初始化之后利用训练数据集对网络模型进行训练；

计算单元404，用于计算训练数据集中每个子数据在每一次历元epoch下的参数值；

计算单元404还用于计算每个子数据对应的平均参数值，平均参数值为子数据在所有历元epoch下的参数值总和的平均值；

确定单元405，用于将平均参数值在预设范围内的子数据确定为误标注数据。

本实施例一种优选的实施方式中，计算单元404具体用于计算训练数据集中每个子数据在每一次历元epoch下的损失值；

计算单元404具体用于计算每个子数据对应的平均损失值，平均损失值为子数据在所有历元epoch下的损失值总和的平均值；

确定单元405具体用于将平均损失值在预设范围内的子数据确定为误标注数据。

本实施例一种优选的实施方式中，确定单元405具体用于根据平均损失值的数值大小对训练数据集中的子数据进行排序，得到子数据序列，确定平均损失值在子数据序列中最大的n个子数据为误标注数据，其中n为正整数。

本实施例一种优选的实施方式中，计算单元404具体用于计算训练数据集中每个子数据在每一次历元epoch下的概率值；

计算单元404具体用于计算每个子数据对应的平均概率值，平均概率值为子数据在所有历元epoch下的概率值总和的平均值；

确定单元405具体用于将平均概率值在预设范围内的子数据确定为误标注数据。

本实施例一种优选的实施方式中，初始化单元403具体用于对网络模型的全连接层进行初始化。

本实施例一种优选的实施方式中，初始化单元403具体用于对网络模型的全连接层进行随机初始化。

本实施例一种优选的实施方式中，初始化的次数根据训练数据集中误标注数据的占比确定。

本实施例一种优选的实施方式中，还包括：

剔除单元406，用于剔除训练数据集中的误标注数据。

本实施例中，数据筛选装置中各单元所执行的操作与前述图2至3所示实施例中描述的类似，此处不再赘述。

本实施例中，获取单元401在获取到训练数据集之后，训练单元402利用该训练数据集对网络模型进行训练，在训练过程中，当每一次训练数据集的准确率的变化量达到预设数值范围时，初始化单元403对网络模型进行初始化，从而可以阻止网络模型的过拟合，训练单元402在初始化之后继续利用训练数据集对网络模型进行训练，因此，每个子数据会在网络模型的训练过程中经历多次epoch，则计算单元404可以计算每个子数据对应的平均参数值，该平均参数值为子数据在所有epoch下的参数值总和的平均值，确定单元405将平均参数值在预设范围内的子数据确定为误标注数据。本实施例的方法通过对网络模型的初始化，可以防止网络模型过拟合，不需要调节学习率，整个操作流程简单，耗时小，可准确筛选出误标注数据。

下面对本申请实施例中的数据筛选装置进行描述，请参阅图5，本申请实施例中数据筛选装置一个实施例包括：

该数据筛选装置500可以包括一个或一个以上中央处理器（central processingunits，CPU）501和存储器505，该存储器505中存储有一个或一个以上的应用程序或数据。

其中，存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块，每个模块可以包括对数据筛选装置中的一系列指令操作。更进一步地，中央处理器501可以设置为与存储器505通信，在数据筛选装置500上执行存储器505中的一系列指令操作。

数据筛选装置500还可以包括一个或一个以上电源502，一个或一个以上有线或无线网络接口503，一个或一个以上输入输出接口504，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等。

该中央处理器501可以执行前述图2至图3所示实施例中数据筛选装置所执行的操作，具体此处不再赘述。

本申请实施例还提供了一种计算机存储介质，其中一个实施例包括：该计算机存储介质中存储有指令，该指令在计算机上执行时，使得该计算机执行前述图2至图3所示实施例中数据筛选装置所执行的操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，read-onlymemory）、随机存取存储器（RAM，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种误标注数据筛选方法，其特征在于，包括：

获取训练数据集，所述训练数据集包括误标注数据；

2.根据权利要求1所述的误标注数据筛选方法，其特征在于，所述计算所述训练数据集中每个子数据在每一次历元epoch下的参数值，包括：

计算所述训练数据集中每个子数据在每一次历元epoch下的损失值；

所述计算每个所述子数据对应的平均参数值，包括：

计算每个所述子数据对应的平均损失值，所述平均损失值为所述子数据在所有历元epoch下的损失值总和的平均值；

所述将平均参数值在预设范围内的子数据确定为所述误标注数据，包括：

将平均损失值在所述预设范围内的子数据确定为所述误标注数据。

3.根据权利要求2所述的误标注数据筛选方法，其特征在于，所述将平均损失值在所述预设范围内的子数据确定为所述误标注数据，包括：

根据所述平均损失值的数值大小对所述训练数据集中的子数据进行排序，得到子数据序列；

确定平均损失值在所述子数据序列中最大的n个子数据为所述误标注数据，其中n为正整数。

4.根据权利要求1所述的误标注数据筛选方法，其特征在于，所述计算所述训练数据集中每个子数据在每一次历元epoch下的参数值，包括：

计算所述训练数据集中每个子数据在每一次历元epoch下的概率值；

所述计算每个所述子数据对应的平均参数值，包括：

计算每个所述子数据对应的平均概率值，所述平均概率值为所述子数据在所有历元epoch下的概率值总和的平均值；

将平均概率值在所述预设范围内的子数据确定为所述误标注数据。

5.根据权利要求1所述的误标注数据筛选方法，其特征在于，所述对所述网络模型进行初始化，包括：

对所述网络模型的全连接层进行初始化。

6.根据权利要求5所述的误标注数据筛选方法，其特征在于，所述对所述网络模型的全连接层进行初始化，包括：

对所述网络模型的全连接层进行随机初始化。

7.根据权利要求1所述的误标注数据筛选方法，其特征在于，所述初始化的次数根据所述训练数据集中所述误标注数据的占比确定。

8.根据权利要求1至7任一项所述的误标注数据筛选方法，其特征在于，所述将平均参数值在预设范围内的子数据确定为所述误标注数据之后，所述方法还包括：

剔除所述训练数据集中的误标注数据。

9.一种数据筛选装置，其特征在于，包括：

10.根据权利要求9所述的数据筛选装置，其特征在于，所述计算单元具体用于计算所述训练数据集中每个子数据在每一次历元epoch下的损失值；

所述计算单元具体用于计算每个所述子数据对应的平均损失值，所述平均损失值为所述子数据在所有历元epoch下的损失值总和的平均值；

所述确定单元具体用于将平均损失值在所述预设范围内的子数据确定为所述误标注数据。

11.根据权利要求10所述的数据筛选装置，其特征在于，所述确定单元具体用于根据所述平均损失值的数值大小对所述训练数据集中的子数据进行排序，得到子数据序列，确定平均损失值在所述子数据序列中最大的n个子数据为所述误标注数据，其中n为正整数。

12.根据权利要求9所述的数据筛选装置，其特征在于，所述计算单元具体用于计算所述训练数据集中每个子数据在每一次历元epoch下的概率值；

所述计算单元具体用于计算每个所述子数据对应的平均概率值，所述平均概率值为所述子数据在所有历元epoch下的概率值总和的平均值；

所述确定单元具体用于将平均概率值在所述预设范围内的子数据确定为所述误标注数据。

13.根据权利要求9所述的数据筛选装置，其特征在于，所述初始化单元具体用于对所述网络模型的全连接层进行初始化。

14.根据权利要求13所述的数据筛选装置，其特征在于，所述初始化单元具体用于对所述网络模型的全连接层进行随机初始化。

15.根据权利要求9所述的数据筛选装置，其特征在于，所述初始化的次数根据所述训练数据集中所述误标注数据的占比确定。

16.根据权利要求9至15任一项所述的数据筛选装置，其特征在于，还包括：

剔除单元，用于剔除所述训练数据集中的误标注数据。

17.一种数据筛选装置，其特征在于，包括：

处理器、存储器、总线、输入输出设备；

所述处理器与所述存储器、输入输出设备相连；

所述总线分别连接所述处理器、存储器以及输入输出设备；

18.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1至8中任一项所述的方法。