CN112990130B - 训练样本的数据清洗方法、装置及一种分类器 - Google Patents
训练样本的数据清洗方法、装置及一种分类器 Download PDFInfo
- Publication number
- CN112990130B CN112990130B CN202110456762.2A CN202110456762A CN112990130B CN 112990130 B CN112990130 B CN 112990130B CN 202110456762 A CN202110456762 A CN 202110456762A CN 112990130 B CN112990130 B CN 112990130B
- Authority
- CN
- China
- Prior art keywords
- training samples
- data
- training
- full
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种训练样本的数据清洗方法。针对训练数据中少量存在的标注类标和真实类标不一致的情况,本发明先通过调整显著性特征的权重分布使得标注类标与真实类标一致的数据特征更具区别性,抑制标注类标与真实类标不一致性数据特征差异性,其次根据训练过程中的验证集结果,结合前面显著性特征相关分析结果,对训练样本中的部分数据进行类标的修正。本发明还公开了一种训练样本的数据清洗装置以及一种分类器。本发明技术方案既可以单独作为数据预处理方法,对训练样本进行数据清洗;也可以与分类器训练过程相结合,在分类器训练中自适应修正错误标注的训练样本,从而显著提升分类算法的精度。
Description
技术领域
本发明属于机器学习技术领域,具体涉及一种训练样本的数据清洗方法、装置及一种分类器。
背景技术
机器学习通常可分为监督学习、无监督学习、强化学习、半监督学习,而其中除无监督学习之外的其它几种方式都需要预先标注好样本所属类型标签(下文简称标注类标)的训练样本来进行学习。训练各种神经网络一般需要海量数据,海量数据中往往存在少量数据存在噪声,这部分噪声可能是数据与多个类别相近,或者存在干扰信息,叠加标注人员在标注时受主观性和工作强度影响,会存在少量数据的标注类标与真实类标不一致的情况。普通的分类算法训练时在面对这标注类标与真实类标不一致的数据时,是不进行处理的,从而导致训练出来的模型在预测时存在两种类别或者多种类别间置信值接近从而导致误分。理想情况是对标注人员进行统一培训,对二义性的图像重新标注,对不清楚的图像进行忽略或者剔除。但是这些处理都是增加额外的人力成本。
针对这一问题,研究人员也提出了一些对数据标注进行修正的技术方案,但普遍存在明显缺陷。例如,一篇中国发明专利申请《数据标注修正方法、装置、计算机可读介质及电子设备》(申请公开号为CN 110399933 A,公开日为2019.11.01)公开了一种数据标注的修正方法,对于一训练集,采用不同表达能力的学习模型同时计算该训练集内每一样本数据的分类分数,并且选出在每一所述学习模型下的分类分数均在该学习模型对应的阈值范围内的样本数据作为需要修正的样本数据,从而实现自动对样本数据进行核查;根据多数投票原则,对采用所述不同表达能力的学习模型计算得到的分类标注占比最高的作为该样本数据的标注,从而实现了自动且较准确地对样本数据的标注进行修正。该技术方案无需对训练集中所有样本数据都进行标注修正,能够自动对样本数据进行核查,寻找出最容易出现标注出错问题的样本数据集,自动且较准确地对该样本数据集内的标注进行修正。然而,该技术方案需要使用多种不同表达能力的学习模型,实现过程复杂,实现成本高昂,且对于错误标注数据的识别效果也不尽人意。又如,中国发明专利申请《一种基于半监督学习进行图像标注方法》(公开号为CN111738343A,公开日为2020.10.02)针对不同类别的样本设计不同的分类器,利用已经标注好的部分样本来训练分类器,并且对不同分类器的结果进行投票,选择出准确率最高的类别,从而对未知样本进行标注。然而该方案为了降低错误分类带来的影响,将分类器得到的每一个类别中的样本与标注的相应类别中的样本进行随机线性混合操作,使得错误分类的结果中也含有对应类别的特征。再如,论文《ImageCaptioning with Very Scarce Supervised Data: Adversarial Semi-SupervisedLearning Approach,MixMatch: A Holistic Approach to Semi-Supervised Learning》利用半监督学习实现通过较少的带有标签数据训出鲁棒性较强的模型并给大规模无标注的数据进行类标标注,但是在通过较少的带标签的数据训练模型的过程中并没有提出降低因为错误类标数据影响模型精度的问题。
发明内容
本发明索要解决的技术问题在于克服现有技术不足,提供一种训练样本的数据清洗方法,可以较低的成本对错误标注训练样本进行高效且准确地修正。
本发明具体采用以下技术方案解决上述技术问题:
一种训练样本的数据清洗方法,包括以下步骤:
步骤1、将带有标注类标的训练样本送入包括网络主体和全连接层的神经网络进行前向传播;
步骤2、将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征,然后对所述第二全连接层特征进行非线性变换,得到维度为数据数量*数据类别的显著性特征;以所述显著性特征与第一全连接层特征进行点乘,得到加权全连接特征;
步骤3、将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中,第二损失函数,第三损失函数分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
步骤4、在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试,当第一次发现验证集样本的分类准确率开始放缓,则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的。
优选地,10≤M≤30。
进一步优选地,M=20。
优选地,通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较,来判断验证集样本的分类准确率是否开始放缓。
更进一步地,所述调整类标的训练样本还需满足以下条件:其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。
基于同一发明构思还可以得到以下技术方案:
一种训练样本数据清洗装置,包括:
神经网络,其包括网络主体和全连接层;
特征提取模块,在用带有标注类标的训练样本对所述神经网络进行前向传播过程中,用于将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征,然后对所述第二全连接层特征进行非线性变换,得到维度为数据数量*数据类别的显著性特征;以所述显著性特征与第一全连接层特征进行点乘,得到加权全连接特征;
网络参数更新模块,用于将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中,第二损失函数,第三损失函数分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
验证模块,用于在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试;
类标调整模块,用于在第一次发现验证集样本的分类准确率开始放缓时,将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的。
优选地,10≤M≤30。
进一步优选地,M=20。
优选地,类标调整模块通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较,来判断验证集样本的分类准确率是否开始放缓。
更进一步地,所述调整类标的训练样本还需满足以下条件:其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。
一种分类器,使用训练好的神经网络进行分类;所述神经网络包括网络主体以及与网络主体的输出端连接的两个并行的分支,其中第一分支由一个全连接层组成,第二分支由两个串行的全连接层和sigmoid激活层组成;所述神经网络的训练过程包含以下步骤:
步骤1、将带有标注类标的训练样本送入所述神经网络进行前向传播;
步骤2、所述第二分支对网络主体输出的特征进行处理,得到维度为数据数量*数据类别的显著性特征;并将所述显著性特征与第一分支所输出的全连接层特征进行点乘,得到加权全连接特征;
步骤3、将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中,第二损失函数,第三损失函数分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
步骤4、在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试,当第一次发现验证集样本的分类准确率开始放缓,则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的。
优选地,10≤M≤30。
进一步优选地,M=20。
优选地,通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较,来判断验证集样本的分类准确率是否开始放缓。
更进一步地,所述调整类标的训练样本还需满足以下条件:其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。
优选地,所述分类器用于图像分类。
相比现有技术,本发明技术方案具有以下有益效果:
针对训练数据中少量存在的标注类标和真实类标不一致的情况,本发明提出了一种自适应类标修正算法,首先通过调整显著性特征的权重分布使得标注类标与真实类标一致的数据特征更具区别性,抑制标注类标与真实类标不一致性数据特征差异性,其次根据训练过程中的验证集结果,结合前面显著性特征相关分析结果,对训练样本中的部分数据进行类标的修正。本发明技术方案既可以单独作为数据预处理方法,对训练样本进行数据清洗;也可以与分类器训练过程相结合,在分类器训练中自适应修正错误标注的训练样本,从而显著提升分类算法的精度。
附图说明
图1为经典的分类网络结构示意图;
图2为本发明分类器一个具体实施例的结构示意图;
图3为显著性特征的分布示意图。
具体实施方式
针对训练数据中少量存在的标注类标和真实类标不一致的情况,本发明的解决思路是先通过调整显著性特征的权重分布使得标注类标与真实类标一致的数据特征更具区别性,抑制标注类标与真实类标不一致性数据特征差异性,其次根据训练过程中的验证集结果,结合前面显著性特征相关分析结果,对训练样本中的部分数据进行类标的修正。本发明技术方案既可以单独作为数据预处理方法,对训练样本进行数据清洗;也可以与分类器训练过程相结合,在分类器训练中自适应修正错误标注的训练样本,从而显著提升分类算法的精度。
具体而言,本发明所提出的训练样本的数据清洗方法,包括以下步骤:
步骤1、将带有标注类标的训练样本送入包括网络主体和全连接层的神经网络进行前向传播;
步骤2、将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征,然后对所述第二全连接层特征进行非线性变换,得到维度为数据数量*数据类别的显著性特征;以所述显著性特征与第一全连接层特征进行点乘,得到加权全连接特征;
步骤3、将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中,第二损失函数,第三损失函数分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
步骤4、在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试,当第一次发现验证集样本的分类准确率开始放缓,则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的。
本发明所提出的训练样本数据清洗装置,包括:
神经网络,其包括网络主体和全连接层;
特征提取模块,在用带有标注类标的训练样本对所述神经网络进行前向传播过程中,用于将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征,然后对所述第二全连接层特征进行非线性变换,得到维度为数据数量*数据类别的显著性特征;以所述显著性特征与第一全连接层特征进行点乘,得到加权全连接特征;
网络参数更新模块,用于将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中,第二损失函数,第三损失函数分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
验证模块,用于在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试;
类标调整模块,用于在第一次发现验证集样本的分类准确率开始放缓时,将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的。
本发明所提出的分类器,使用训练好的神经网络进行分类;所述神经网络包括网络主体以及与网络主体的输出端连接的两个并行的分支,其中第一分支由一个全连接层组成,第二分支由两个串行的全连接层和sigmoid激活层组成;所述神经网络的训练过程包含以下步骤:
步骤1、将带有标注类标的训练样本送入所述神经网络进行前向传播;
步骤2、所述第二分支对网络主体输出的特征进行处理,得到维度为数据数量*数据类别的显著性特征;并将所述显著性特征与第一分支所输出的全连接层特征进行点乘,得到加权全连接特征;
步骤3、将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中,第二损失函数,第三损失函数分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
步骤4、在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试,当第一次发现验证集样本的分类准确率开始放缓,则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的。
为了便于公众理解,下面通过一个具体实施例并结合附图来对本发明的技术方案进行详细说明:
现有用于分类的神经网络结构(如Vgg、Resnet等)通常由网络主体和全连接层两个部分组成,如图1 所示,网络主体的输出特征为数据数量*输出维度N,其中输出维度N为任意大于0的自然数;对网络主体的输出特征进行全连接层计算得到维度为数据数量*数据类别的全连接层特征,全连接层的列数一一对应于训练数据的类别数。
本实施例的分类器在传统神经网络结构基础上进行了改进,如图2所示,在网络主体之后增加一条由两个串行的全连接层和sigmoid激活层组成的分支,新增分支中第一个全连接层的维度为数据数量*类别数,第二个全连接层的维度为类别数*类别数,通过sigmoid激活层对第二个全连接层输出的特征进行非线性变换计算得到显著性特征,显著性特征维度为数据数量*数据类别,新增分支的显著性特征与原分支的全连接层特征进行点乘后得到加权全连接特征,加权全连接特征维度为数据数量*数据类别,加权全连接特征和显著性特征作为神经网络输出。
显著性特征与全连接层特征点乘后可以放大不同类别数据之间的差异,显著性特征数值分布可以反映训练样本真实标签与标注标签之间的差异,如果训练样本真实标签与标注标签一致,那么其显著性特征会呈现明显的脉冲样分布(如图3中实线),即某个类别的权重会非常大,其余类别权重值会较小;如果训练样本真实标签与标注标签存在误差,那么显著性特征数值分布会呈现较为缓和的波浪式分布,即多个类别权重较大且数值接近(如图3中虚线),剩余权重较小。基于这一原理,为了使得标注类别与真实类标一致数据和标注类标与真实类标不一致数据的加权全连接层特征存在明显差异,本发明通过统计信息实现对显著性特征的调整,使得标注类标与真实类标一致的数据的显著性特征呈现典型脉冲分布,从而使得加权全连接特征在各个类别上呈现明显差异;抑制标注类标与真实类标不一致数据的显著性特征呈现典型的脉冲分布,从而使得标注类标与真实类标上的置信值分布差异较小。
具体而言,图2所述分类器的训练过程包括以下步骤:
步骤1、将带有标注类标的训练样本送入所述神经网络进行前向传播;
步骤2、所述第二分支对网络主体输出的特征进行处理,得到维度为数据数量*数据类别的显著性特征;并将所述显著性特征与第一分支所输出的全连接层特征进行点乘,得到加权全连接特征;
步骤3、将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中,第二损失函数,第三损失函数分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度:
在训练的每一次迭代过程中,对每一个迭代批次每个训练样本的显著性特特征计算均值和方差,对这一批次样本按照显著性特征方差从高到低的顺序排序,并记录排序后每张样本的索引值。将排序后训练样本按显著性特征方差大小进行M%:(100- M)%的比例划分, 0<M<50,前M%的训练样本的标注标签和真实标签有很大概率一致,而后(100- M)%的训练样本中存在着困难样本和标签模糊样本,困难样本的定义是训练样本的标注标签和真实标签一致,但是模型没有办法很好的学习到对应的特征从而导致显著性特征和加权全连接特征的不典型脉冲分布,但是经过充分的迭代,模型仍然有可能学习到对应的特征;而标签模糊样本定义就是训练样本的标注标签和真实标签不一致,模型对这类数据的直接表现为在经过充分的迭代后,对这类数据依然无法区分。
计算这批迭代数据中排序前M%的数据的显著性特征方差均值,记为,排序后(100- M)%的数据的显著性特征方差均值记为,根据和计算第二损失函数,参数margin越大,说明方差均值高的样本与方差均值低的样本的置信值越接近,难以区分,反之,方差均值高样本与方差均值低的样本的置信值差异大。loss2的优化目标是标注类标与样本真实类标一致的数据在显著性特征上呈现明显的脉冲分布,抑制标注类标与样本真实类标不一致的数据在显著性特征上的脉冲分布。经大量分析实验发现,M的较优取值范围为10≤M≤30,更优的取值为20。
将显著性特征方差前M%的数据所对应的加权全连接特征进行聚类,聚类中心点的数量等于样本的类标数N;对聚类得到的加权全连接特征中心点进行不重复的两两组合,计算每个组合中的两个聚类中心点的相似度,并将所有组合的相似度相累加作为第三损失函数,其数学表达为,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度。其中相似度可采用现有的欧氏距离、明氏距离、余弦相似度等各种度量方法,本发明优选采用聚类中心的余弦值来评估这一组中两个类别的相似度;因为余弦值的变化范围是[-1,1],本实施例对所有组合的余弦相似度都加上1,以使得变化范围变为[0,2],如果某一组的两个类别的余弦相似度越小,说明这两个类别差异越大;如果余弦相似度越大,说明两个类别差异越小;最理想的情况是相似度为0。随着迭代次数的不断增加,所有训练数据中,各个类别根据显著性特征方差从高到低排序的前M%数据所对应的加权全连接特征差异会越来越明显,因此前M%的加权全连接特征的余弦相似度会越来越接近于0;而显著性特征方差从高到低排序后(100-M)%所对应的数据中,模糊类别数据的加权全连接特征在所有两两不同类别组合后,计算得到余弦相似度会存在多个组合数值明显较大且接近的情况。
将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一~第三损失函数的加权和,其中第一损失函数loss1可采用常见的损失函数形式,例如交叉熵损失函数、KL散度损失函数等;将loss1、loss2、loss3进行加权求和后进行梯度回传,从而实现网络参数的更新。
步骤4、在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试,当第一次发现验证集样本的分类准确率开始放缓,则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的:
在所有训练样本一次迭代完成后,均对验证集样本进行测试。将验证集样本送入网络中,经过网络主体计算得到网络主体输出特征,分别送入第一分支和第二分支,第一个分支为全连接层计算得到维度为数据数量*数据类别的全连接层特征;第二分支由两个串行的全连接层和sigmoid激活层组成,可以通过进行非线性变换计算得到显著性特征;将第二分支的显著性特征与第一分支的全连接层特征进行点乘后得到加权全连接特征。对加权全连接特征进行softmax计算,取每个样本的softmax特征值的最大值对应的索引值,如果索引值等于标注类标,表示预测正确;如果索引不等于标注类标,表示预测失败。统计验证集中所有预测成功的样本数量,验证集的准确率可以表示为预测成功样本数量/验证集样本数量。
当第一次发现验证集样本的分类准确率开始放缓,就要开始进行错误标注类标的修正。验证集样本的分类准确率是否开始放缓可采用多种方式来判断,优选地,可通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较,例如,如果(当前验证集准确率-上一次验证集准确率)/(上一次验证集准确率-上上一次验证集准确率)<1,则判定验证集样本的分类准确率开始放缓。所谓错误标注类标的修正具体是指找出满足以下条件的训练样本,并将其标注类标调整为神经网络输出的分类类标(即样本的softmax特征值的最大值对应的索引值):1.分类类标与标注类标不一致;2.其显著性特征方差小于同一迭代批次的。
满足以上这两个条件的训练样本可能会同时包含困难样本和标签模糊样本,按照这样的修正原则有可能会对困难样本造成误伤,为了解决这一问题,本实施例中进一步增加了第3个判定条件:其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。只有同时满足以上3个条件的训练样本才认为其属于需要进行类标修正的标签模糊样本。所述阈值可根据所采用的相似度度量方式以及实际需要进行设置,例如,采用上述的余弦相似度加1的度量方式,则所述阈值可取为1。
步骤5、反复迭代至所述神经网络收敛,则完成模型训练,得到最终的分类器;可使用该分类器对测试样本进行分类。
以上的分类器训练过程实际上也可单独作为训练样本的数据清洗步骤,将其中的标签模糊样本的类标修正,然后再利用清洗后的训练数据进行进一步的分类模型训练。
为了验证本发明技术方案的技术效果,以用本发明分类器进行图像分类为例来与现有技术进行比对。本验证例的基础网络模型采用Regvgg,图像输入大小为96×96,设置类别数为N;分类器的训练过程具体如下:
1、 图像数据处理:将图像按32张划分,每次送入数量32张的96x96的RGB图像进行基础网络模型训练;
2、计算基础网络模型主体的输出特征维度为32×512,将网络主体的输出特征分别送入第一分支和第二分支全连接层特征,第一分支的全连接特征输出维度为32×N,第二分支的显著性特征维度为32×N,将第一分支的全连接特征和第二分支的全连接特征进行点乘得到加权全连接特征维度为32xN,加权全连接特征和显著性特征作为最终的结果输出;
3、对显著性特征计算方差并进行从高到低的排序,根据经验值,对排序后的显著性特征方差按1:4比例进行划分,计算排序中前20%的方差平均值,记为var_high,计算剩余80%的方差平均值,记为var_low;
4 、通过交叉熵损失函数计算加权全连接特征与32张图像的真实标签的分类损失loss1;计算 loss2= max{var_low-var_high+margin,0};将显著性特征方差前20%的数据对应的加权全连接进行聚类,对聚类出来的加权全连接特征中心点进行不重复的两两组合,计算每个组合中的聚类中心的余弦值加1后相加,即为loss3=sum(cos(x,y)+1),x、y表示各个组合中的样本;最后按照综合损失函数Loss = loss1+loss2+0.25*loss3,进行反向传播和网络更新 ;
5、在所有样本完成一轮迭代后,通过计算验证集的准确度,当出现第一次(当前验证集准确率-上一次验证集准确率)/(上一次验证集准确率-上上一次验证集准确率)<1时,进行标注类标的重定义。对每个批次的数据计算显著性特征和加权全连接特征后,对加权全连接特征进行softmax计算,取每个样本的softmax特征值的最大值以及对应的索引值。需要进行标注类标调整的数据符合以下三个条件:1. 样本softmax特征值中最大值的索引值与标注类标不一致; 2.样本计算显著性特征的方差小于训练数据的后80%数据的显著性方差均值;3.样本加权特征与训练样本方差最高前20%的数据划分的各类聚类中心的相似度存在两个及两个以上小于等于1。对符合上述条件的数据进行标注标签的修订,使用预测类别代替标注类标进行后续的迭代。
使用以上训练好的分类器对人脸表情数据fer2013进行分类测试,并与Regvgg分类算法进行比较。fer2013数据集的训练集共26190张,测试集共7178张,图片的分辨率比较低,共7种表情,分别为生气、厌恶、恐惧、开心、 伤心、惊讶、中性。测试结果如表1所示。
表1
Fer2013 | 生气 | 恐惧 | 开心 | 伤心 | 惊讶 | 中性 | 厌恶 |
Regvgg | 69% | 71% | 89% | 61% | 78% | 85% | 73% |
本发明算法 | 72% | 74% | 90% | 67% | 77% | 86% | 74% |
根据表1可看出,本发明分类器较传统的Regvgg分类算法具有更好的分类精度。
Claims (19)
1.一种训练样本的数据清洗方法,其特征在于,包括以下步骤:
步骤1、将带有标注类标的训练样本送入包括网络主体和全连接层的神经网络进行前向传播;
步骤2、将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征,然后对所述第二全连接层特征进行非线性变换,得到维度为数据数量*数据类别的显著性特征;以所述显著性特征与第一全连接层特征进行点乘,得到加权全连接特征;
步骤3、将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一损失函数、第二损失函数、第三损失函数的加权和,其中,第二损失函数
,第三损失函数; var_high、var_low分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50,margin为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
步骤4、在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试,当第一次发现验证集样本的分类准确率开始放缓,则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的var_low。
2.如权利要求1所述训练样本的数据清洗方法,其特征在于,10≤M≤30。
3.如权利要求1所述训练样本的数据清洗方法,其特征在于,M=20。
4.如权利要求1所述训练样本的数据清洗方法,其特征在于,通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较,来判断验证集样本的分类准确率是否开始放缓。
6.如权利要求1所述训练样本的数据清洗方法,其特征在于,所述调整类标的训练样本还需满足以下条件:其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。
7.一种训练样本的数据清洗装置,其特征在于,包括:
神经网络,其包括网络主体和全连接层;
特征提取模块,在用带有标注类标的训练样本对所述神经网络进行前向传播过程中,用于将所述全连接层所输出的维度为数据数量*数据类别的第一全连接层特征映射为维度为类别数*类别数的第二全连接层特征,然后对所述第二全连接层特征进行非线性变换,得到维度为数据数量*数据类别的显著性特征;以所述显著性特征与第一全连接层特征进行点乘,得到加权全连接特征;
网络参数更新模块,用于将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一损失函数、第二损失函数、第三损失函数的加权和,其中,第二损失函数,第三损失函数; var_high、var_low分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50, margin为预设参数,为取最大值函数,i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
验证模块,用于在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试;
类标调整模块,用于在第一次发现验证集样本的分类准确率开始放缓时,将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的var_low。
8.如权利要求7所述训练样本的数据清洗装置,其特征在于,10≤M≤30。
9.如权利要求8所述训练样本的数据清洗装置,其特征在于,M=20。
10.如权利要求7所述训练样本的数据清洗装置,其特征在于,类标调整模块通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较,来判断验证集样本的分类准确率是否开始放缓。
12.如权利要求7所述训练样本的数据清洗装置,其特征在于,所述调整类标的训练样本还需满足以下条件:其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。
13.一种分类器,使用训练好的神经网络进行分类;其特征在于,所述神经网络包括网络主体以及与网络主体的输出端连接的两个并行的分支,其中第一分支由一个全连接层组成,第二分支由两个串行的全连接层和sigmoid激活层组成;所述神经网络的训练过程包含以下步骤:
步骤1、将带有标注类标的训练样本送入所述神经网络进行前向传播;
步骤2、所述第二分支对网络主体输出的特征进行处理,得到维度为数据数量*数据类别的显著性特征;并将所述显著性特征与第一分支所输出的全连接层特征进行点乘,得到加权全连接特征;
步骤3、将加权全连接层特征与训练样本的标注类标比对,以综合损失函数最小化为目标,进行梯度回传实现神经网络参数的更新;所述综合损失函数为第一损失函数、第二损失函数、第三损失函数的加权和,其中,第二损失函数,第三损失函数;var_high、var_low分别为本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的显著性特征方差均值和其余训练样本的显著性特征方差均值,0<M<50, margin为预设参数,为取最大值函数, i、j为对本迭代批次所有训练样本中显著性特征方差最大的前M%的训练样本的加权全连接特征进行聚类所得到的N个聚类中心中的任意两个,N为数据类别,表示聚类中心i、j的相似度;
步骤4、在所有训练样本完成一次迭代后,均用验证集样本对所述神经网络进行测试,当第一次发现验证集样本的分类准确率开始放缓,则将训练样本中满足以下条件的训练样本的标注类标调整为神经网络输出的分类类标:分类类标与标注类标不一致;其显著性特征方差小于同一迭代批次的var_low 。
14.如权利要求13所述分类器,其特征在于,10≤M≤30。
15.如权利要求14所述分类器,其特征在于,M=20。
16.如权利要求13所述分类器,其特征在于,通过将当前一次迭代验证集分类准确率和上一次迭代验证集分类准确率的差值与上一次迭代验证集分类准确率和上上一次迭代验证集分类准确率的差值进行比较,来判断验证集样本的分类准确率是否开始放缓。
18.如权利要求13所述分类器,其特征在于,所述调整类标的训练样本还需满足以下条件:其加权全连接特征与所述N个聚类中心的至少两个的相似度小于等于预设阈值。
19.如权利要求13所述分类器,其特征在于,用于图像分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110456762.2A CN112990130B (zh) | 2021-04-27 | 2021-04-27 | 训练样本的数据清洗方法、装置及一种分类器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110456762.2A CN112990130B (zh) | 2021-04-27 | 2021-04-27 | 训练样本的数据清洗方法、装置及一种分类器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990130A CN112990130A (zh) | 2021-06-18 |
CN112990130B true CN112990130B (zh) | 2021-07-23 |
Family
ID=76340308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110456762.2A Active CN112990130B (zh) | 2021-04-27 | 2021-04-27 | 训练样本的数据清洗方法、装置及一种分类器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990130B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379005B (zh) * | 2021-08-12 | 2021-10-29 | 新风光电子科技股份有限公司 | 一种电网电力设备能源智能管理系统及方法 |
CN117689998B (zh) * | 2024-01-31 | 2024-05-03 | 数据空间研究院 | 非参数自适应的情绪识别模型、方法、系统和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
US9992211B1 (en) * | 2015-08-27 | 2018-06-05 | Symantec Corporation | Systems and methods for improving the classification accuracy of trustworthiness classifiers |
CN108932343A (zh) * | 2018-07-24 | 2018-12-04 | 南京甄视智能科技有限公司 | 人脸图像数据库的数据集清洗方法与系统 |
CN109241310A (zh) * | 2018-07-25 | 2019-01-18 | 南京甄视智能科技有限公司 | 人脸图像数据库的数据去重方法与系统 |
CN110807808A (zh) * | 2019-10-14 | 2020-02-18 | 浙江理工大学 | 一种基于物理引擎和深度全卷积网络的商品识别方法 |
CN112182076A (zh) * | 2020-08-25 | 2021-01-05 | 四川新网银行股份有限公司 | 一种联合不同来源数据的变量选择方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8036999B2 (en) * | 2007-02-14 | 2011-10-11 | Isagacity | Method for analyzing and classifying process data that operates a knowledge base in an open-book mode before defining any clusters |
-
2021
- 2021-04-27 CN CN202110456762.2A patent/CN112990130B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9992211B1 (en) * | 2015-08-27 | 2018-06-05 | Symantec Corporation | Systems and methods for improving the classification accuracy of trustworthiness classifiers |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN108932343A (zh) * | 2018-07-24 | 2018-12-04 | 南京甄视智能科技有限公司 | 人脸图像数据库的数据集清洗方法与系统 |
CN109241310A (zh) * | 2018-07-25 | 2019-01-18 | 南京甄视智能科技有限公司 | 人脸图像数据库的数据去重方法与系统 |
CN110807808A (zh) * | 2019-10-14 | 2020-02-18 | 浙江理工大学 | 一种基于物理引擎和深度全卷积网络的商品识别方法 |
CN112182076A (zh) * | 2020-08-25 | 2021-01-05 | 四川新网银行股份有限公司 | 一种联合不同来源数据的变量选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112990130A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368885B (zh) | 一种航空发动机气路故障诊断方法 | |
US7362892B2 (en) | Self-optimizing classifier | |
CN112990130B (zh) | 训练样本的数据清洗方法、装置及一种分类器 | |
CN109101938B (zh) | 一种基于卷积神经网络的多标签年龄估计方法 | |
CN111832647A (zh) | 异常流量检测系统及方法 | |
CN109620152A (zh) | 一种基于MutiFacolLoss-Densenet的心电信号分类方法 | |
CN106503731A (zh) | 一种基于条件互信息和K‑means的无监督特征选择方法 | |
CN111768000A (zh) | 在线自适应微调深度学习的工业过程数据建模方法 | |
CN112508063A (zh) | 基于增量学习的医学图像分类方法 | |
CN112557034A (zh) | 一种基于pca_cnns的轴承故障诊断方法 | |
CN109214444B (zh) | 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法 | |
CN107247954A (zh) | 一种基于深度神经网络的图像离群点检测方法 | |
CN111695611B (zh) | 一种蜂群优化核极限学习和稀疏表示机械故障识别方法 | |
CN109617864B (zh) | 一种网站识别方法及网站识别系统 | |
CN114330486A (zh) | 基于改进Wasserstein GAN的电力系统不良数据辨识方法 | |
CN111639680B (zh) | 一种基于专家反馈机制的身份识别方法 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN113033345A (zh) | 基于公共特征子空间的v2v视频人脸识别方法 | |
CN113593698B (zh) | 一种基于图注意网络的中医证型识别方法 | |
CN111402205B (zh) | 一种基于多层感知机的乳腺肿瘤数据清洗方法 | |
CN113849654A (zh) | 一种基于对比学习聚类的文本清洗方法及系统 | |
CN113158555A (zh) | 一种基于专家系统和随机森林分类器的重型燃机控制系统模拟量输入模块bit设计方法 | |
CN111400685A (zh) | 一种采用竞争匹配的安全身份验证方法 | |
CN113609304B (zh) | 一种实体匹配方法和装置 | |
CN113421176B (zh) | 一种学生成绩分数中异常数据智能筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province Patentee after: Xiaoshi Technology (Jiangsu) Co.,Ltd. Address before: 210000 Longmian Avenue 568, High-tech Park, Jiangning District, Nanjing City, Jiangsu Province Patentee before: NANJING ZHENSHI INTELLIGENT TECHNOLOGY Co.,Ltd. |