CN112990130B

CN112990130B - 训练样本的数据清洗方法、装置及一种分类器

Info

Publication number: CN112990130B
Application number: CN202110456762.2A
Authority: CN
Inventors: 杨帆; 刘利卉; 朱莹; 冯帅; 胡建国
Original assignee: Nanjing Zhenshi Intelligent Technology Co Ltd
Current assignee: Xiaoshi Technology (Jiangsu) Co.,Ltd.
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-23
Anticipated expiration: 2041-04-27
Also published as: CN112990130A

Abstract

本发明公开了一种训练样本的数据清洗方法。针对训练数据中少量存在的标注类标和真实类标不一致的情况，本发明先通过调整显著性特征的权重分布使得标注类标与真实类标一致的数据特征更具区别性，抑制标注类标与真实类标不一致性数据特征差异性，其次根据训练过程中的验证集结果，结合前面显著性特征相关分析结果，对训练样本中的部分数据进行类标的修正。本发明还公开了一种训练样本的数据清洗装置以及一种分类器。本发明技术方案既可以单独作为数据预处理方法，对训练样本进行数据清洗；也可以与分类器训练过程相结合，在分类器训练中自适应修正错误标注的训练样本，从而显著提升分类算法的精度。

Description

训练样本的数据清洗方法、装置及一种分类器

技术领域

本发明属于机器学习技术领域，具体涉及一种训练样本的数据清洗方法、装置及一种分类器。

背景技术

机器学习通常可分为监督学习、无监督学习、强化学习、半监督学习，而其中除无监督学习之外的其它几种方式都需要预先标注好样本所属类型标签（下文简称标注类标）的训练样本来进行学习。训练各种神经网络一般需要海量数据，海量数据中往往存在少量数据存在噪声，这部分噪声可能是数据与多个类别相近，或者存在干扰信息，叠加标注人员在标注时受主观性和工作强度影响，会存在少量数据的标注类标与真实类标不一致的情况。普通的分类算法训练时在面对这标注类标与真实类标不一致的数据时，是不进行处理的，从而导致训练出来的模型在预测时存在两种类别或者多种类别间置信值接近从而导致误分。理想情况是对标注人员进行统一培训，对二义性的图像重新标注，对不清楚的图像进行忽略或者剔除。但是这些处理都是增加额外的人力成本。

针对这一问题，研究人员也提出了一些对数据标注进行修正的技术方案，但普遍存在明显缺陷。例如，一篇中国发明专利申请《数据标注修正方法、装置、计算机可读介质及电子设备》（申请公开号为CN 110399933 A，公开日为2019.11.01）公开了一种数据标注的修正方法，对于一训练集，采用不同表达能力的学习模型同时计算该训练集内每一样本数据的分类分数，并且选出在每一所述学习模型下的分类分数均在该学习模型对应的阈值范围内的样本数据作为需要修正的样本数据，从而实现自动对样本数据进行核查；根据多数投票原则，对采用所述不同表达能力的学习模型计算得到的分类标注占比最高的作为该样本数据的标注，从而实现了自动且较准确地对样本数据的标注进行修正。该技术方案无需对训练集中所有样本数据都进行标注修正，能够自动对样本数据进行核查，寻找出最容易出现标注出错问题的样本数据集，自动且较准确地对该样本数据集内的标注进行修正。然而，该技术方案需要使用多种不同表达能力的学习模型，实现过程复杂，实现成本高昂，且对于错误标注数据的识别效果也不尽人意。又如，中国发明专利申请《一种基于半监督学习进行图像标注方法》（公开号为CN111738343A，公开日为2020.10.02）针对不同类别的样本设计不同的分类器，利用已经标注好的部分样本来训练分类器，并且对不同分类器的结果进行投票，选择出准确率最高的类别，从而对未知样本进行标注。然而该方案为了降低错误分类带来的影响，将分类器得到的每一个类别中的样本与标注的相应类别中的样本进行随机线性混合操作，使得错误分类的结果中也含有对应类别的特征。再如，论文《ImageCaptioning with Very Scarce Supervised Data: Adversarial Semi-SupervisedLearning Approach，MixMatch: A Holistic Approach to Semi-Supervised Learning》利用半监督学习实现通过较少的带有标签数据训出鲁棒性较强的模型并给大规模无标注的数据进行类标标注，但是在通过较少的带标签的数据训练模型的过程中并没有提出降低因为错误类标数据影响模型精度的问题。

发明内容

本发明索要解决的技术问题在于克服现有技术不足，提供一种训练样本的数据清洗方法，可以较低的成本对错误标注训练样本进行高效且准确地修正。

本发明具体采用以下技术方案解决上述技术问题：

一种训练样本的数据清洗方法，包括以下步骤：

步骤1、将带有标注类标的训练样本送入包括网络主体和全连接层的神经网络进行前向传播；

步骤2、将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征，然后对所述第二全连接层特征进行非线性变换，得到维度为数据数量*数据类别的显著性特征；以所述显著性特征与第一全连接层特征进行点乘，得到加权全连接特征；

步骤3、将加权全连接层特征与训练样本的标注类标比对，以综合损失函数最小化为目标，进行梯度回传实现神经网络参数的更新；所述综合损失函数为第一～第三损失函数的加权和，其中，第二损失函数

，第三损失函数

分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值，0<M<50,

为预设参数，

为取最大值函数，i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个，N为数据类别，

表示聚类中心i、j的相似度；

步骤4、在所有训练样本完成一次迭代后，均用验证集样本对所述神经网络进行测试，当第一次发现验证集样本的分类准确率开始放缓，则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标：分类类标与标注类标不一致；其显著性特征方差小于同一迭代批次的

。

优选地，10≤M≤30。

进一步优选地，M=20。

优选地，通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较，来判断验证集样本的分类准确率是否开始放缓。

优选地，聚类中心i、j的相似度

为i、j的余弦相似度加1。

更进一步地，所述调整类标的训练样本还需满足以下条件：其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。

基于同一发明构思还可以得到以下技术方案：

一种训练样本数据清洗装置，包括：

神经网络，其包括网络主体和全连接层；

特征提取模块，在用带有标注类标的训练样本对所述神经网络进行前向传播过程中，用于将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征，然后对所述第二全连接层特征进行非线性变换，得到维度为数据数量*数据类别的显著性特征；以所述显著性特征与第一全连接层特征进行点乘，得到加权全连接特征；

网络参数更新模块，用于将加权全连接层特征与训练样本的标注类标比对，以综合损失函数最小化为目标，进行梯度回传实现神经网络参数的更新；所述综合损失函数为第一～第三损失函数的加权和，其中，第二损失函数

，第三损失函数

为预设参数，

表示聚类中心i、j的相似度；

验证模块，用于在所有训练样本完成一次迭代后，均用验证集样本对所述神经网络进行测试；

类标调整模块，用于在第一次发现验证集样本的分类准确率开始放缓时，将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标：分类类标与标注类标不一致；其显著性特征方差小于同一迭代批次的

。

优选地，10≤M≤30。

进一步优选地，M=20。

优选地，类标调整模块通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较，来判断验证集样本的分类准确率是否开始放缓。

优选地，聚类中心i、j的相似度

为i、j的余弦相似度加1。

一种分类器，使用训练好的神经网络进行分类；所述神经网络包括网络主体以及与网络主体的输出端连接的两个并行的分支，其中第一分支由一个全连接层组成，第二分支由两个串行的全连接层和sigmoid激活层组成；所述神经网络的训练过程包含以下步骤：

步骤1、将带有标注类标的训练样本送入所述神经网络进行前向传播；

步骤2、所述第二分支对网络主体输出的特征进行处理，得到维度为数据数量*数据类别的显著性特征；并将所述显著性特征与第一分支所输出的全连接层特征进行点乘，得到加权全连接特征；

，第三损失函数

为预设参数，

表示聚类中心i、j的相似度；

。

优选地，10≤M≤30。

进一步优选地，M=20。

优选地，聚类中心i、j的相似度

为i、j的余弦相似度加1。

优选地，所述分类器用于图像分类。

相比现有技术，本发明技术方案具有以下有益效果：

针对训练数据中少量存在的标注类标和真实类标不一致的情况，本发明提出了一种自适应类标修正算法，首先通过调整显著性特征的权重分布使得标注类标与真实类标一致的数据特征更具区别性，抑制标注类标与真实类标不一致性数据特征差异性，其次根据训练过程中的验证集结果，结合前面显著性特征相关分析结果，对训练样本中的部分数据进行类标的修正。本发明技术方案既可以单独作为数据预处理方法，对训练样本进行数据清洗；也可以与分类器训练过程相结合，在分类器训练中自适应修正错误标注的训练样本，从而显著提升分类算法的精度。

附图说明

图1为经典的分类网络结构示意图；

图2为本发明分类器一个具体实施例的结构示意图；

图3为显著性特征的分布示意图。

具体实施方式

针对训练数据中少量存在的标注类标和真实类标不一致的情况，本发明的解决思路是先通过调整显著性特征的权重分布使得标注类标与真实类标一致的数据特征更具区别性，抑制标注类标与真实类标不一致性数据特征差异性，其次根据训练过程中的验证集结果，结合前面显著性特征相关分析结果，对训练样本中的部分数据进行类标的修正。本发明技术方案既可以单独作为数据预处理方法，对训练样本进行数据清洗；也可以与分类器训练过程相结合，在分类器训练中自适应修正错误标注的训练样本，从而显著提升分类算法的精度。

具体而言，本发明所提出的训练样本的数据清洗方法，包括以下步骤：

，第三损失函数

为预设参数，

表示聚类中心i、j的相似度；

。

本发明所提出的训练样本数据清洗装置，包括：

神经网络，其包括网络主体和全连接层；

，第三损失函数

为预设参数，

表示聚类中心i、j的相似度；

。

本发明所提出的分类器，使用训练好的神经网络进行分类；所述神经网络包括网络主体以及与网络主体的输出端连接的两个并行的分支，其中第一分支由一个全连接层组成，第二分支由两个串行的全连接层和sigmoid激活层组成；所述神经网络的训练过程包含以下步骤：

，第三损失函数

为预设参数，

表示聚类中心i、j的相似度；

。

为了便于公众理解，下面通过一个具体实施例并结合附图来对本发明的技术方案进行详细说明：

现有用于分类的神经网络结构（如Vgg、Resnet等）通常由网络主体和全连接层两个部分组成，如图1 所示，网络主体的输出特征为数据数量*输出维度N，其中输出维度N为任意大于0的自然数；对网络主体的输出特征进行全连接层计算得到维度为数据数量*数据类别的全连接层特征，全连接层的列数一一对应于训练数据的类别数。

本实施例的分类器在传统神经网络结构基础上进行了改进，如图2所示，在网络主体之后增加一条由两个串行的全连接层和sigmoid激活层组成的分支，新增分支中第一个全连接层的维度为数据数量*类别数，第二个全连接层的维度为类别数*类别数，通过sigmoid激活层对第二个全连接层输出的特征进行非线性变换计算得到显著性特征，显著性特征维度为数据数量*数据类别，新增分支的显著性特征与原分支的全连接层特征进行点乘后得到加权全连接特征，加权全连接特征维度为数据数量*数据类别，加权全连接特征和显著性特征作为神经网络输出。

显著性特征与全连接层特征点乘后可以放大不同类别数据之间的差异，显著性特征数值分布可以反映训练样本真实标签与标注标签之间的差异，如果训练样本真实标签与标注标签一致，那么其显著性特征会呈现明显的脉冲样分布（如图3中实线），即某个类别的权重会非常大，其余类别权重值会较小；如果训练样本真实标签与标注标签存在误差，那么显著性特征数值分布会呈现较为缓和的波浪式分布，即多个类别权重较大且数值接近（如图3中虚线），剩余权重较小。基于这一原理，为了使得标注类别与真实类标一致数据和标注类标与真实类标不一致数据的加权全连接层特征存在明显差异，本发明通过统计信息实现对显著性特征的调整，使得标注类标与真实类标一致的数据的显著性特征呈现典型脉冲分布，从而使得加权全连接特征在各个类别上呈现明显差异；抑制标注类标与真实类标不一致数据的显著性特征呈现典型的脉冲分布，从而使得标注类标与真实类标上的置信值分布差异较小。

具体而言，图2所述分类器的训练过程包括以下步骤：

，第三损失函数

为预设参数，

表示聚类中心i、j的相似度：

在训练的每一次迭代过程中，对每一个迭代批次每个训练样本的显著性特特征计算均值和方差，对这一批次样本按照显著性特征方差从高到低的顺序排序，并记录排序后每张样本的索引值。将排序后训练样本按显著性特征方差大小进行M%:（100- M）%的比例划分, 0<M<50，前M%的训练样本的标注标签和真实标签有很大概率一致，而后（100- M）%的训练样本中存在着困难样本和标签模糊样本，困难样本的定义是训练样本的标注标签和真实标签一致，但是模型没有办法很好的学习到对应的特征从而导致显著性特征和加权全连接特征的不典型脉冲分布，但是经过充分的迭代，模型仍然有可能学习到对应的特征；而标签模糊样本定义就是训练样本的标注标签和真实标签不一致，模型对这类数据的直接表现为在经过充分的迭代后，对这类数据依然无法区分。

计算这批迭代数据中排序前M%的数据的显著性特征方差均值，记为

，排序后（100- M）%的数据的显著性特征方差均值记为

，根据

和

计算第二损失函数

，参数margin越大，说明方差均值高的样本与方差均值低的样本的置信值越接近，难以区分，反之，方差均值高样本与方差均值低的样本的置信值差异大。loss2的优化目标是标注类标与样本真实类标一致的数据在显著性特征上呈现明显的脉冲分布，抑制标注类标与样本真实类标不一致的数据在显著性特征上的脉冲分布。经大量分析实验发现，M的较优取值范围为10≤M≤30，更优的取值为20。

将显著性特征方差前M%的数据所对应的加权全连接特征进行聚类，聚类中心点的数量等于样本的类标数N；对聚类得到的加权全连接特征中心点进行不重复的两两组合，计算每个组合中的两个聚类中心点的相似度，并将所有组合的相似度相累加作为第三损失函数

，其数学表达为

，i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个，N为数据类别，

表示聚类中心i、j的相似度。其中相似度可采用现有的欧氏距离、明氏距离、余弦相似度等各种度量方法，本发明优选采用聚类中心的余弦值来评估这一组中两个类别的相似度；因为余弦值的变化范围是[-1,1],本实施例对所有组合的余弦相似度都加上1，以使得变化范围变为[0,2],如果某一组的两个类别的余弦相似度越小，说明这两个类别差异越大；如果余弦相似度越大，说明两个类别差异越小；最理想的情况是相似度为0。随着迭代次数的不断增加，所有训练数据中，各个类别根据显著性特征方差从高到低排序的前M%数据所对应的加权全连接特征差异会越来越明显，因此前M%的加权全连接特征的余弦相似度会越来越接近于0；而显著性特征方差从高到低排序后（100-M）%所对应的数据中，模糊类别数据的加权全连接特征在所有两两不同类别组合后，计算得到余弦相似度会存在多个组合数值明显较大且接近的情况。

将加权全连接层特征与训练样本的标注类标比对，以综合损失函数最小化为目标，进行梯度回传实现神经网络参数的更新；所述综合损失函数为第一～第三损失函数的加权和，其中第一损失函数loss1可采用常见的损失函数形式，例如交叉熵损失函数、KL散度损失函数等；将loss1、loss2、loss3进行加权求和后进行梯度回传，从而实现网络参数的更新。

：

在所有训练样本一次迭代完成后，均对验证集样本进行测试。将验证集样本送入网络中，经过网络主体计算得到网络主体输出特征，分别送入第一分支和第二分支，第一个分支为全连接层计算得到维度为数据数量*数据类别的全连接层特征；第二分支由两个串行的全连接层和sigmoid激活层组成，可以通过进行非线性变换计算得到显著性特征；将第二分支的显著性特征与第一分支的全连接层特征进行点乘后得到加权全连接特征。对加权全连接特征进行softmax计算，取每个样本的softmax特征值的最大值对应的索引值，如果索引值等于标注类标，表示预测正确；如果索引不等于标注类标，表示预测失败。统计验证集中所有预测成功的样本数量，验证集的准确率可以表示为预测成功样本数量/验证集样本数量。

当第一次发现验证集样本的分类准确率开始放缓，就要开始进行错误标注类标的修正。验证集样本的分类准确率是否开始放缓可采用多种方式来判断，优选地，可通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较，例如，如果（当前验证集准确率-上一次验证集准确率）/（上一次验证集准确率-上上一次验证集准确率）<1，则判定验证集样本的分类准确率开始放缓。所谓错误标注类标的修正具体是指找出满足以下条件的训练样本，并将其标注类标调整为神经网络输出的分类类标（即样本的softmax特征值的最大值对应的索引值）：1.分类类标与标注类标不一致；2.其显著性特征方差小于同一迭代批次的

。

满足以上这两个条件的训练样本可能会同时包含困难样本和标签模糊样本，按照这样的修正原则有可能会对困难样本造成误伤，为了解决这一问题，本实施例中进一步增加了第3个判定条件：其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。只有同时满足以上3个条件的训练样本才认为其属于需要进行类标修正的标签模糊样本。所述阈值可根据所采用的相似度度量方式以及实际需要进行设置，例如，采用上述的余弦相似度加1的度量方式，则所述阈值可取为1。

步骤5、反复迭代至所述神经网络收敛，则完成模型训练，得到最终的分类器；可使用该分类器对测试样本进行分类。

以上的分类器训练过程实际上也可单独作为训练样本的数据清洗步骤，将其中的标签模糊样本的类标修正，然后再利用清洗后的训练数据进行进一步的分类模型训练。

为了验证本发明技术方案的技术效果，以用本发明分类器进行图像分类为例来与现有技术进行比对。本验证例的基础网络模型采用Regvgg，图像输入大小为96×96,设置类别数为N；分类器的训练过程具体如下：

1、图像数据处理：将图像按32张划分，每次送入数量32张的96x96的RGB图像进行基础网络模型训练；

2、计算基础网络模型主体的输出特征维度为32×512，将网络主体的输出特征分别送入第一分支和第二分支全连接层特征，第一分支的全连接特征输出维度为32×N，第二分支的显著性特征维度为32×N，将第一分支的全连接特征和第二分支的全连接特征进行点乘得到加权全连接特征维度为32xN，加权全连接特征和显著性特征作为最终的结果输出；

3、对显著性特征计算方差并进行从高到低的排序,根据经验值，对排序后的显著性特征方差按1:4比例进行划分，计算排序中前20%的方差平均值，记为var_high,计算剩余80%的方差平均值，记为var_low；

4 、通过交叉熵损失函数计算加权全连接特征与32张图像的真实标签的分类损失loss1；计算 loss2= max{var_low-var_high+margin,0}；将显著性特征方差前20%的数据对应的加权全连接进行聚类，对聚类出来的加权全连接特征中心点进行不重复的两两组合，计算每个组合中的聚类中心的余弦值加1后相加，即为loss3=sum(cos(x,y)+1),x、y表示各个组合中的样本；最后按照综合损失函数Loss = loss1+loss2+0.25*loss3，进行反向传播和网络更新；

5、在所有样本完成一轮迭代后，通过计算验证集的准确度，当出现第一次（当前验证集准确率-上一次验证集准确率）/（上一次验证集准确率-上上一次验证集准确率）<1时，进行标注类标的重定义。对每个批次的数据计算显著性特征和加权全连接特征后，对加权全连接特征进行softmax计算，取每个样本的softmax特征值的最大值以及对应的索引值。需要进行标注类标调整的数据符合以下三个条件：1. 样本softmax特征值中最大值的索引值与标注类标不一致； 2.样本计算显著性特征的方差小于训练数据的后80%数据的显著性方差均值；3.样本加权特征与训练样本方差最高前20%的数据划分的各类聚类中心的相似度存在两个及两个以上小于等于1。对符合上述条件的数据进行标注标签的修订，使用预测类别代替标注类标进行后续的迭代。

使用以上训练好的分类器对人脸表情数据fer2013进行分类测试，并与Regvgg分类算法进行比较。fer2013数据集的训练集共26190张，测试集共7178张，图片的分辨率比较低，共7种表情，分别为生气、厌恶、恐惧、开心、伤心、惊讶、中性。测试结果如表1所示。

表1

Fer2013	生气	恐惧	开心	伤心	惊讶	中性	厌恶
								Regvgg	69%	71%	89%	61%	78%	85%	73%
本发明算法	72%	74%	90%	67%	77%	86%	74%

根据表1可看出，本发明分类器较传统的Regvgg分类算法具有更好的分类精度。

Claims

1.一种训练样本的数据清洗方法，其特征在于，包括以下步骤：

步骤3、将加权全连接层特征与训练样本的标注类标比对，以综合损失函数最小化为目标，进行梯度回传实现神经网络参数的更新；所述综合损失函数为第一损失函数、第二损失函数、第三损失函数的加权和，其中，第二损失函数

，第三损失函数

； var_high、var_low分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值，0<M<50,margin为预设参数，

表示聚类中心i、j的相似度；

步骤4、在所有训练样本完成一次迭代后，均用验证集样本对所述神经网络进行测试，当第一次发现验证集样本的分类准确率开始放缓，则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标：分类类标与标注类标不一致；其显著性特征方差小于同一迭代批次的var_low。

2.如权利要求1所述训练样本的数据清洗方法，其特征在于，10≤M≤30。

3.如权利要求1所述训练样本的数据清洗方法，其特征在于，M=20。

4.如权利要求1所述训练样本的数据清洗方法，其特征在于，通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较，来判断验证集样本的分类准确率是否开始放缓。

5.如权利要求1所述训练样本的数据清洗方法，其特征在于，聚类中心i、j的相似度

为i、j的余弦相似度加1。

6.如权利要求1所述训练样本的数据清洗方法，其特征在于，所述调整类标的训练样本还需满足以下条件：其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。

7.一种训练样本的数据清洗装置，其特征在于，包括：

神经网络，其包括网络主体和全连接层；

网络参数更新模块，用于将加权全连接层特征与训练样本的标注类标比对，以综合损失函数最小化为目标，进行梯度回传实现神经网络参数的更新；所述综合损失函数为第一损失函数、第二损失函数、第三损失函数的加权和，其中，第二损失函数

，第三损失函数

； var_high、var_low分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值，0<M<50, margin为预设参数，

表示聚类中心i、j的相似度；

类标调整模块，用于在第一次发现验证集样本的分类准确率开始放缓时，将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标：分类类标与标注类标不一致；其显著性特征方差小于同一迭代批次的var_low。

8.如权利要求7所述训练样本的数据清洗装置，其特征在于，10≤M≤30。

9.如权利要求8所述训练样本的数据清洗装置，其特征在于，M=20。

10.如权利要求7所述训练样本的数据清洗装置，其特征在于，类标调整模块通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较，来判断验证集样本的分类准确率是否开始放缓。

11.如权利要求7所述训练样本的数据清洗装置，其特征在于，聚类中心i、j的相似度

为i、j的余弦相似度加1。

12.如权利要求7所述训练样本的数据清洗装置，其特征在于，所述调整类标的训练样本还需满足以下条件：其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。

13.一种分类器，使用训练好的神经网络进行分类；其特征在于，所述神经网络包括网络主体以及与网络主体的输出端连接的两个并行的分支，其中第一分支由一个全连接层组成，第二分支由两个串行的全连接层和sigmoid激活层组成；所述神经网络的训练过程包含以下步骤：

，第三损失函数

；var_high、var_low分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值，0<M<50, margin为预设参数，

为取最大值函数， i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个，N为数据类别，

表示聚类中心i、j的相似度；

步骤4、在所有训练样本完成一次迭代后，均用验证集样本对所述神经网络进行测试，当第一次发现验证集样本的分类准确率开始放缓，则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标：分类类标与标注类标不一致；其显著性特征方差小于同一迭代批次的var_low 。

14.如权利要求13所述分类器，其特征在于，10≤M≤30。

15.如权利要求14所述分类器，其特征在于，M=20。

16.如权利要求13所述分类器，其特征在于，通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较，来判断验证集样本的分类准确率是否开始放缓。

17.如权利要求13所述分类器，其特征在于，聚类中心i、j的相似度

为i、j的余弦相似度加1。

18.如权利要求13所述分类器，其特征在于，所述调整类标的训练样本还需满足以下条件：其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。

19.如权利要求13所述分类器，其特征在于，用于图像分类。