CN112529172A - 数据处理方法和数据处理设备 - Google Patents

数据处理方法和数据处理设备 Download PDF

Info

Publication number
CN112529172A
CN112529172A CN201911066499.5A CN201911066499A CN112529172A CN 112529172 A CN112529172 A CN 112529172A CN 201911066499 A CN201911066499 A CN 201911066499A CN 112529172 A CN112529172 A CN 112529172A
Authority
CN
China
Prior art keywords
sample
data set
samples
training
divergence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911066499.5A
Other languages
English (en)
Inventor
姜奕祺
应江勇
王君
朱雄威
薛洵
陈雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN112529172A publication Critical patent/CN112529172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种数据处理方法,用于精炼数据集,在数据集删减比例一定时提升训练精度。包括:获取原始数据集并根据样本的类别标签确定包括第一分类数据集和第二分类数据集的多个分类数据集;确定第一分类数据集的第一离散程度和第二分类数据集的第二离散程度;根据第一离散程度和第二离散程度确定第一分类数据集的第一样本删减比例和第二分类数据集的第二样本删减比例,若第一离散程度大于第二离散程度,则第一样本删减比例小于第二样本删减比例,若第一离散程度小于或等于第二离散程度,则第一样本删减比例大于或等于第二样本删减比例;根据样本删减比例确定目标数据集,包括第一分类数据集保留的样本和第二分类数据集保留的样本。

Description

数据处理方法和数据处理设备
本申请要求于2019年9月18日提交中国专利局、申请号为201910883282.7、发明名称为“数据处理方法和数据处理设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及机器学习领域,特别涉及一种数据处理方法和数据处理设备。
背景技术
深度学习是机器学习中的一个分支,深度学习模型需要输入数据集进行训练,由于数据集的样本数量大,训练时间通常较长。
现有技术中,在进行训练之前,对数据集进行精炼,对于数据集中每个标签类别的分类数据集,提前设定一定的丢弃比例进行样本删减,得到精炼后的数据集,根据该精炼后的数据集进行模型训练以降低训练时长。
由于现有技术中,通过对分类数据集预先设定丢弃比例进行删减,若不同的分类数据集的样本差异较大,按照同样的预设删减比例进行删减,将使得在数据集删减比例一定的条件下,模型训练精度较低。
发明内容
本申请实施例提供了一种数据处理方法,用于精炼数据集,可以在数据集删减比例一定的条件下,提升训练精度。
本申请实施例第一方面提供了一种数据处理方法,包括:获取原始数据集;根据该原始数据集中样本的类别标签,确定多个分类数据集,该多个分类数据集包括第一分类数据集和第二分类数据集;确定该第一分类数据集的第一离散程度和该第二分类数据集的第二离散程度;根据该第一离散程度和该第二离散程度确定该第一分类数据集的第一样本删减比例和该第二分类数据集的第二样本删减比例,若该第一离散程度大于该第二离散程度,则该第一样本删减比例小于该第二样本删减比例,若该第一离散程度小于或等于该第二离散程度,则该第一样本删减比例大于或等于该第二样本删减比例;确定目标数据集,该目标数据集包括该第一分类数据集保留的样本和该第二分类数据集保留的样本,该第一分类数据集保留的样本根据该第一样本删减比例、该第一分类数据集的样本量和预设的样本删减总量确定,该第二分类数据集保留的样本根据该第二样本删减比例、该第二分类数据集的样本量和预设的样本删减总量确定。
本申请实施例提供的数据处理方法,首先根据原始数据集中样本的类别标签获取多个分类数据集,确定第一分类数据集的第一离散程度和第二分类数据集的第二离散程度,根据第一离散程度与第二离散程度的大小关系确定第一分类数据集的第一样本删减比例与第二分类数据集的第二样本删减比例的大小关系,由于离散程度大代表样本分布分散,对于模型训练价值更大,确定较小的删减比例将有利于提高模型的训练精度,反之,离散程度小代表样本分布集中,样本间的相似度高,对于模型训练的价值较低,由此确定较大的删减比例。本申请实施例提供的数据处理方法,根据分类数据集的离散程度确定删减比例,进而获取最终的目标样本集,可以在数据集删减比例一定的条件下,提升深度学习神经网络模型的训练精度。此外,由于更多地保留离散程度高的分类数据集的样本,在维持神经网络模型的训练精度不变的条件下,可以避免重复训练相似度较高的样本,可以降低训练时长。
在第一方面的一种可能的实现方式中,该第一离散程度为根据该第一分类数据集中所有样本的特征向量确定的第一平均散度;该第二离散程度为根据该第二分类数据集中所有样本的特征向量确定的第二平均散度。
本申请实施例提供的数据处理方法,通过分类数据集的中所有样本的特征向量确定的平均散度,即散度的平均值,来度量分类数据集的离散程度,提供了衡量分类数据集的离散程度的一种具体实现方法,提升了方案的可实现性。
在第一方面的一种可能的实现方式中,该第一平均散度为第一相对熵KL散度或第一杰森香农JS散度的平均值,该第一KL散度为该第一分类数据集中任意两个样本的特征向量的KL散度,该第一JS散度为该第一分类数据集中任意两个样本的特征向量的JS散度;该第二平均散度为第二KL散度或第二JS散度的平均值,该第二KL散度为该第二分类数据集中任意两个样本的特征向量的KL散度,该第二JS散度为该第二分类数据集中任意两个样本的特征向量的JS散度。
本申请实施例提供的数据处理方法,提供了确定第一分类数据集的平均散度的两种方式,可以通过计算第一分类数据集中任意两个样本的特征向量的KL散度的平均值,或者通过计算第一分类数据集中任意两个样本的特征向量的JS散度的平均值,确定第一分类数据集的平均散度,增加了方案实现的灵活性。
在第一方面的一种可能的实现方式中,该第一离散程度与该第一样本删减比例负相关,该第二离散程度与该第二样本删减比例负相关。
本申请实施例提供的数据处理方法,在原始数据集中各分类数据集的离散程度不变时,数据集分类数据集的离散程度与其样本删减比例负相关,
在第一方面的一种可能的实现方式中,该根据该第一离散程度和该第二离散程度确定该第一分类数据集的第一样本删减比例和该第二分类数据集的第二样本删减比例包括:确定该多个分类数据集中每个分类数据集的散度之和;确定该第一散度与该散度之和的比例,以及该第二散度与该散度之和的比例;根据该第一散度与该散度之和的比例、该第二散度与该散度之和的比例、该第一分类数据集的样本量、该第二分类数据集的样本量和预设的样本删减总量,确定该第一样本删减比例与该第二样本删减比例。
本申请实施例提供的数据处理方法,提供了根据分类数据集的散度散度与原始数据集中所有分类数据集的散度之和的比例,以及分类数据集的样本量、预设的样本删减总量确定该第一样本删减比例的方法,提高了方案的可实现性。
在第一方面的一种可能的实现方式中,该确定目标数据集包括:根据该第一分类数据集的样本的密度和该第一样本删减比例确定该第一分类数据集保留的样本,该第一分类数据集保留的样本的平均密度小于该第一分类数据集的样本的平均密度;根据该第二数据集的样本的密度和该第二样本删减比例确定该第二分类数据集保留的样本,该第二分类数据集保留的样本的平均密度小于该第二数据集的样本的平均密度。
本申请实施例提供的数据处理方法,提供了确定具体保留哪些样本的方法,即根据样本在分类数据集中的密度来确定是否保留该样本,由于密度大代表该样本周围的样本密度大,即与该样本相似的样本多,对于模型训练的价值较低,因此优先删除密度大的样本,保留的样本的平均密度降低,可以在删减样本量一定的条件下,提升模型的训练精度;或者,在维持神经网络模型的训练精度不变的条件下,避免重复训练相似度较高的样本,降低训练时长。
在第一方面的一种可能的实现方式中,该样本的密度为根据局部异常因子LOF算法计算的样本的异常度。
本申请实施例提供的数据处理方法,密度具体可以是根据LOF算法计算的异常度。
在第一方面的一种可能的实现方式中,该方法还包括:将该目标数据集输入神经网络训练模型的第一训练周期,该目标数据集包括第一训练样本;获取该第一训练样本输入该第一训练周期的第一损失和/或第一判错率,该第一判错率为该第一训练样本的错判次数与训练次数之比;在该第一损失和/或该第一判错率满足预设条件的情况下,将该第一训练样本输入第二训练周期,该第二训练周期为该第一训练周期的下一个训练周期。
本申请实施例提供的数据处理方法,经过静态精炼得到的目标数据集可以输入神经网络训练模型进行训练,此外,在训练过程中,根据训练样本的损失和/或判错率可以进一步确定每个训练周期需要移除的样本,获取进入下一训练周期的样本。
本申请实施例第二方面提供了一种数据处理方法,包括:获取第一训练样本输入第一训练周期的第一损失和/或第一判错率,该第一判错率为该第一训练样本的错判次数与训练次数之比;在该第一损失和/或该第一判错率满足预设条件的情况下,将该第一训练样本输入第二训练周期,该第二训练周期为该第一训练周期的下一个训练周期。
本申请实施例第二方面提供的数据处理方法,根据第一训练样本输入到第一训练周期进行训练得到的第一损失和/或第一判错率,可以衡量该样本对于模型训练的价值,由于损失越大或判错率越大,表明它对于模型来说是难例,更需要输入模型训练。当第一损失和/或第一判错率满足预设条件的情况下才将其输入下一训练周期。由于现有技术中,输入网络模型参与训练的样本,被无差别地输入每个训练周期,由于随着训练周期的推进,网络模型参数不断变化,样本对于每个训练周期的网络模型的价值也不断变化,根据本申请实施例提供的数据处理方法对样本进行移除,确定保留至下一训练周期的样本,可以减少低价值样本参与训练耗费的训练时间,在确保训练精度的条件下,降低总体训练时长;或者,在维持神经网络模型的训练精度不变的条件下,降低训练时长。
在第二方面的一种可能的实现方式中,该在该第一损失和/或该第一判错率满足预设条件的情况下,将该第一训练样本输入第二训练周期包括:若该第一损失大于第一阈值,则将该第一训练样本输入第二训练周期;或者,若该第一判错率大于第二阈值,则确定将该第一训练样本输入第二训练周期。
本申请实施例提供的数据处理方法,损失大于阈值,或者,判错率大于阈值时,确定将样本输入下一训练周期,可以确保将对于网络模型而言难度较高的样本输入下一训练周期,可以避免训练精度损失。
在第二方面的一种可能的实现方式中,该第一阈值为预设值,或者根据预设移除量和输入该第一训练周期的所有样本的损失确定的阈值。
本申请实施例提供的数据处理方法,提供了确定损失的第一阈值的具体方式,增强了方案的可行性。
在第二方面的一种可能的实现方式中,该第二阈值为预设值,或者根据预设移除量和输入该第一训练周期的所有样本的判错率确定的阈值。
本申请实施例提供的数据处理方法,提供了确定判错率的第二阈值的具体方式,增强了方案的可行性。
在第二方面的一种可能的实现方式中,该若该第一损失和/或该第一判错率满足预设条件,则确定将该第一训练样本输入第二训练周期包括:根据该第一损失和该第一判错率确定该第一训练样本的移除概率;若该移除概率小于第三阈值,则确定将该第一训练样本输入第二训练周期。
本申请实施例提供的数据处理方法,根据损失和判错率两个维度确定样本的移除概率,可以更准确的衡量样本的价值。
在第二方面的一种可能的实现方式中,该第三阈值为预设值,或者根据输入该第一训练周期的所有样本的损失、判错率、密度以及预设移除量确定的阈值,该密度为该样本在根据样本类别标签确定的分类数据集中的密度。
本申请实施例提供的数据处理方法,提供了确定移除概率的第三阈值的具体方式,增强了方案的可行性。
在第二方面的一种可能的实现方式中,该方法还包括:获取输入该第一训练周期的所有样本的损失的平均值和判错率的平均值;根据该第一损失是否小于该损失的平均值,以及该第一判错率是否小于该判错率的平均值,则确定该第一训练样本的目标组别,该目标组别包括第一分组、第二分组、第三分组和第四分组,该第一分组的样本的损失大于或等于该损失的平均值,该第一分组的样本的判错率大于或等于该判错率的平均值;该第二分组的样本的损失大于或等于该损失的平均值,该第二分组的样本的判错率小于该判错率的平均值;该第三分组的样本的损失小于该损失的平均值,该第三分组的样本的判错率小于该判错率的平均值;该第四分组的样本的损失小于该损失的平均值,该第四分组的样本的判错率大于或等于该判错率的平均值;根据该第一分组的样本量和预设的该目标组别的移除比例,确定该目标组别的样本移除量;该预设的该目标组别的移除比例包括第一分组的移除比例、第二分组的移除比例、第三分组的移除比例和第四分组的移除比例,其中,该第一分组的移除比例小于该第二分组的移除比例和该第四分组的移除比例,该第三分组的移除比例大于该第二分组的移除比例和该第四分组的移除比例;根据该第一损失和该第一判错率确定该第一训练样本的移除概率;若该第一训练样本的移除概率小于预设阈值,则确定将该第一训练样本输入第二训练周期,该概率阈值为预设值,或者根据该第一分组的所有样本的损失、判错率、密度和该第一分组的样本移除量确定的阈值,该密度为该样本在根据样本类别标签的分类数据集中的密度。
本申请实施例提供的数据处理方法,可以根据损失和判错率两个维度确定样本分组,根据预设的分组的移除比例确定每个分组的样本移除量,在每个分组中根据样本的移除概率确定保留的样本,提供了一种准确衡量样本的价值并保留至下一训练周期的有效方法。
本申请实施例第三方面提供了一种数据处理装置,包括:获取模块,用于获取原始数据集;确定模块,用于根据该原始数据集中样本的类别标签,确定多个分类数据集,该多个分类数据集包括第一分类数据集和第二分类数据集;该确定模块,还用于确定该第一分类数据集的第一离散程度和该第二分类数据集的第二离散程度;该确定模块,还用于根据该第一离散程度和该第二离散程度确定该第一分类数据集的第一样本删减比例和该第二分类数据集的第二样本删减比例,若该第一离散程度大于该第二离散程度,则该第一样本删减比例小于该第二样本删减比例,若该第一离散程度小于或等于该第二离散程度,则该第一样本删减比例大于或等于该第二样本删减比例;该确定模块,还用于确定目标数据集,该目标数据集包括该第一分类数据集保留的样本和该第二分类数据集保留的样本,该第一分类数据集保留的样本根据该第一样本删减比例、该第一分类数据集的样本量和预设的样本删减总量确定,该第二分类数据集保留的样本根据该第二样本删减比例、该第二分类数据集的样本量和预设的样本删减总量确定。
在第三方面的一种可能的实现方式中,该第一离散程度为根据该第一分类数据集中所有样本的特征向量确定的第一平均散度;该第二离散程度为根据该第二分类数据集中所有样本的特征向量确定的第二平均散度。
在第三方面的一种可能的实现方式中,该第一平均散度为第一相对熵KL散度或第一杰森香农JS散度的平均值,该第一KL散度为该第一分类数据集中任意两个样本的特征向量的KL散度,该第一JS散度为该第一分类数据集中任意两个样本的特征向量的JS散度;该第二平均散度为第二KL散度或第二JS散度的平均值,该第二KL散度为该第二分类数据集中任意两个样本的特征向量的KL散度,该第二JS散度为该第二分类数据集中任意两个样本的特征向量的JS散度。
在第三方面的一种可能的实现方式中,该第一离散程度与该第一样本删减比例负相关,该第二离散程度与该第二样本删减比例负相关。
在第三方面的一种可能的实现方式中,该确定模块具体用于:确定该多个分类数据集中每个分类数据集的散度之和;确定该第一散度与该散度之和的比例,以及该第二散度与该散度之和的比例;根据该第一散度与该散度之和的比例、该第二散度与该散度之和的比例、该第一分类数据集的样本量、该第二分类数据集的样本量和预设的样本删减总量,确定该第一样本删减比例与该第二样本删减比例
在第三方面的一种可能的实现方式中,该确定模块具体用于:根据该第一分类数据集的样本的密度和该第一样本删减比例确定该第一分类数据集保留的样本,该第一分类数据集保留的样本的平均密度小于该第一分类数据集的样本的平均密度;根据该第二数据集的样本的密度和该第二样本删减比例确定该第二分类数据集保留的样本,该第二分类数据集保留的样本的平均密度小于该第二数据集的样本的平均密度。
在第三方面的一种可能的实现方式中,该样本的密度为根据局部异常因子LOF算法计算的样本的异常度。
在第三方面的一种可能的实现方式中,该装置还包括:输入模块,用于将该目标数据集输入神经网络训练模型的第一训练周期,该目标数据集包括第一训练样本;该获取模块还用于,获取该第一训练样本输入该第一训练周期的第一损失和/或第一判错率,该第一判错率为该第一训练样本的错判次数与训练次数之比;该输入模块还用于,在该第一损失和/或该第一判错率满足预设条件的情况下,将该第一训练样本输入第二训练周期,该第二训练周期为该第一训练周期的下一个训练周期。
本申请实施例第四方面提供了一种数据处理装置,包括:获取模块,用于获取第一训练样本输入第一训练周期的第一损失和/或第一判错率,该第一判错率为该第一训练样本的错判次数与训练次数之比;输入模块,用于在该第一损失和/或该第一判错率满足预设条件的情况下,将该第一训练样本输入第二训练周期,该第二训练周期为该第一训练周期的下一个训练周期。
在第四方面的一种可能的实现方式中,该输入模块具体用于:若该第一损失大于第一阈值,则将该第一训练样本输入第二训练周期;或者,若该第一判错率大于第二阈值,则确定将该第一训练样本输入第二训练周期。
在第四方面的一种可能的实现方式中,该第一阈值为预设值,或者根据预设移除量和输入该第一训练周期的所有样本的损失确定的阈值。
在第四方面的一种可能的实现方式中,该第二阈值为预设值,或者根据预设移除量和输入该第一训练周期的所有样本的判错率确定的阈值。
在第四方面的一种可能的实现方式中,该输入模块具体用于:根据该第一损失和该第一判错率确定该第一训练样本的移除概率;若该移除概率小于第三阈值,则确定将该第一训练样本输入第二训练周期。
在第四方面的一种可能的实现方式中,该第三阈值为预设值,或者根据输入该第一训练周期的所有样本的损失、判错率、密度以及预设移除量确定的阈值,该密度为该样本在根据样本类别标签确定的分类数据集中的密度。
在第四方面的一种可能的实现方式中,该获取模块还用于,获取输入该第一训练周期的所有样本的损失的平均值和判错率的平均值;确定模块,用于根据该第一损失是否小于该损失的平均值,以及该第一判错率是否小于该判错率的平均值,则确定该第一训练样本的目标组别;该确定模块还用于,根据该第一分组的样本量和预设的该目标组别的移除比例,确定该目标组别的样本移除量;该确定模块还用于,根据该第一损失和该第一判错率确定该第一训练样本的移除概率;该确定模块还用于,若该第一训练样本的移除概率小于预设阈值,则确定将该第一训练样本输入第二训练周期,该概率阈值为预设值,或者根据该第一分组的所有样本的损失、判错率、密度和该第一分组的样本移除量确定的阈值,该密度为该样本在根据样本类别标签的分类数据集中的密度。
本申请实施例第五方面提供了一种数据处理方法,包括:获取原始数据集;根据所述原始数据集中样本的类别标签,确定多个分类数据集,所述多个分类数据集包括第一分类数据集和第二分类数据集;确定所述第一分类数据集的第一离散程度和所述第二分类数据集的第二离散程度;根据所述第一离散程度和所述第二离散程度确定所述第一分类数据集的第一样本删减比例和所述第二分类数据集的第二样本删减比例,若所述第一离散程度大于所述第二离散程度,则所述第一样本删减比例小于所述第二样本删减比例,若所述第一离散程度小于或等于所述第二离散程度,则所述第一样本删减比例大于或等于所述第二样本删减比例;确定第一目标数据集,所述第一目标数据集包括所述第一分类数据集保留的样本和所述第二分类数据集保留的样本,所述第一分类数据集保留的样本根据所述第一样本删减比例、所述第一分类数据集的样本量和预设的第一样本删减总量确定,所述第二分类数据集保留的样本根据所述第二样本删减比例、所述第二分类数据集的样本量和预设的样本删减总量确定。
在第五方面的一种可能的实现方式中,所述第一离散程度为根据所述第一分类数据集中所有样本的特征向量确定的第一平均散度;所述第二离散程度为根据所述第二分类数据集中所有样本的特征向量确定的第二平均散度。
在第五方面的一种可能的实现方式中,所述第一平均散度为第一相对熵KL散度或第一杰森香农JS散度的平均值,所述第一KL散度为所述第一分类数据集中任意两个样本的特征向量的KL散度,所述第一JS散度为所述第一分类数据集中任意两个样本的特征向量的JS散度;所述第二平均散度为第二KL散度或第二JS散度的平均值,所述第二KL散度为所述第二分类数据集中任意两个样本的特征向量的KL散度,所述第二JS散度为所述第二分类数据集中任意两个样本的特征向量的JS散度。
在第五方面的一种可能的实现方式中,所述根据所述第一离散程度和所述第二离散程度确定所述第一分类数据集的第一样本删减比例和所述第二分类数据集的第二样本删减比例包括:确定所述多个分类数据集中每个分类数据集的散度之和;确定所述第一散度与所述散度之和的比例,以及所述第二散度与所述散度之和的比例;根据所述第一散度与所述散度之和的比例、所述第二散度与所述散度之和的比例、所述第一分类数据集的样本量、所述第二分类数据集的样本量和预设的样本删减总量,确定所述第一样本删减比例与所述第二样本删减比例。
在第五方面的一种可能的实现方式中,所述预设的样本删减总量根据预设的总样本删减比例和所述原始数据集的样本总量确定。
在第五方面的一种可能的实现方式中,所述第一离散程度与所述第一样本删减比例负相关,所述第二离散程度与所述第二样本删减比例负相关。
在第五方面的一种可能的实现方式中,所述确定第一目标数据集包括:根据所述第一样本删减比例和所述第一分类数据集的样本量确定所述第一分类数据集的第一样本删减量;根据所述第二样本删减比例和所述第二分类数据集的样本量确定所述第二分类数据集的第二样本删减量;基于所述第一样本删减量从所述第一分类数据集删减样本,以确定所述第一分类数据集保留的样本,所述第一分类数据集保留的样本的密度均值小于所述第一分类数据集的样本的密度均值;基于所述第二样本删减量从所述第二分类数据集删减样本,以确定所述第二分类数据集保留的样本,所述第二分类数据集保留的样本的密度均值小于所述第二数据集的样本的密度均值;所述密度均值为根据局部异常因子LOF算法计算的样本的异常度的均值。
在第五方面的一种可能的实现方式中,所述方法还包括:将根据预设的第一样本删减总量确定的所述第一目标数据集输入神经网络训练模型的第一训练周期;将根据预设的第二样本删减总量确定的第二目标数据集输入神经网络训练模型的第二训练周期,所述预设的第一样本删减总量与所述预设的第二样本删减总量不同。
在第五方面的一种可能的实现方式中,所述方法还包括:将所述第一目标数据集输入神经网络训练模型的第一训练周期,所述第一目标数据集包括第一训练样本;获取所述第一训练样本输入所述第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比;在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
本申请实施例第六方面提供了一种数据处理方法,包括:获取第一训练样本输入第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比,所述第一训练样本为训练数据集中的样本;在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
在第六方面的一种可能的实现方式中,所述在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期包括:若所述第一损失大于第一阈值,则将所述第一训练样本输入第二训练周期;或者,若所述第一判错率大于第二阈值,则确定将所述第一训练样本输入第二训练周期。
在第六方面的一种可能的实现方式中,所述第一阈值为预设值,或者根据所述训练数据集的预设移除量和所有输入所述第一训练周期的样本的损失确定的阈值。
在第六方面的一种可能的实现方式中,所述第二阈值为预设值,或者根据所述训练数据集的预设移除量和输入所述第一训练周期的所有样本的判错率确定的阈值。
在第六方面的一种可能的实现方式中,所述若所述第一损失和/或所述第一判错率满足预设条件,则确定将所述第一训练样本输入第二训练周期包括:根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;若所述移除概率小于第三阈值,则确定将所述第一训练样本输入第二训练周期。
在第六方面的一种可能的实现方式中,所述第三阈值为预设值,或者根据输入所述第一训练周期的所有样本的损失、判错率、密度以及输入所述下一个训练周期的样本的预设移除量确定的阈值,所述密度为所述样本在根据样本类别标签确定的分类数据集中的密度。
在第六方面的一种可能的实现方式中,所述在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期包括:获取输入所述第一训练周期的所有样本的损失的平均值和判错率的平均值;根据所述第一损失是否小于所述损失的平均值,以及所述第一判错率是否小于所述判错率的平均值,确定所述第一训练样本的目标组别,所述目标组别包括第一分组、第二分组、第三分组或第四分组,所述第一分组的样本的损失大于或等于所述损失的平均值,所述第一分组的样本的判错率大于或等于所述判错率的平均值;所述第二分组的样本的损失大于或等于所述损失的平均值,所述第二分组的样本的判错率小于所述判错率的平均值;所述第三分组的样本的损失小于所述损失的平均值,所述第三分组的样本的判错率小于所述判错率的平均值;所述第四分组的样本的损失小于所述损失的平均值,所述第四分组的样本的判错率大于或等于所述判错率的平均值;根据所述目标组别的样本量和预设的所述目标组别的样本移除比例,确定所述目标组别的样本移除量,所述第一分组的移除比例小于所述第二分组的移除比例和所述第四分组的移除比例,所述第三分组的移除比例大于所述第二分组的移除比例和所述第四分组的移除比例;根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;若所述第一训练样本的移除概率小于预设阈值,则确定将所述第一训练样本输入第二训练周期,所述概率阈值根据所述目标组别的所有样本的损失、判错率和所述目标组别的样本移除量确定。
本申请实施例第七方面提供了一种数据处理装置,包括:获取模块,用于获取原始数据集;确定模块,用于根据所述原始数据集中样本的类别标签,确定多个分类数据集,所述多个分类数据集包括第一分类数据集和第二分类数据集;所述确定模块,还用于确定所述第一分类数据集的第一离散程度和所述第二分类数据集的第二离散程度;所述确定模块,还用于根据所述第一离散程度和所述第二离散程度确定所述第一分类数据集的第一样本删减比例和所述第二分类数据集的第二样本删减比例,若所述第一离散程度大于所述第二离散程度,则所述第一样本删减比例小于所述第二样本删减比例,若所述第一离散程度小于或等于所述第二离散程度,则所述第一样本删减比例大于或等于所述第二样本删减比例;所述确定模块,还用于确定第一目标数据集,所述第一目标数据集包括所述第一分类数据集保留的样本和所述第二分类数据集保留的样本,所述第一分类数据集保留的样本根据所述第一样本删减比例、所述第一分类数据集的样本量和预设的第一样本删减总量确定,所述第二分类数据集保留的样本根据所述第二样本删减比例、所述第二分类数据集的样本量和预设的样本删减总量确定。
在第七方面的一种可能的实现方式中,所述第一离散程度为根据所述第一分类数据集中所有样本的特征向量确定的第一平均散度;所述第二离散程度为根据所述第二分类数据集中所有样本的特征向量确定的第二平均散度。
在第七方面的一种可能的实现方式中,所述第一平均散度为第一相对熵KL散度或第一杰森香农JS散度的平均值,所述第一KL散度为所述第一分类数据集中任意两个样本的特征向量的KL散度,所述第一JS散度为所述第一分类数据集中任意两个样本的特征向量的JS散度;所述第二平均散度为第二KL散度或第二JS散度的平均值,所述第二KL散度为所述第二分类数据集中任意两个样本的特征向量的KL散度,所述第二JS散度为所述第二分类数据集中任意两个样本的特征向量的JS散度。
在第七方面的一种可能的实现方式中,所述确定模块具体用于:确定所述多个分类数据集中每个分类数据集的散度之和;确定所述第一散度与所述散度之和的比例,以及所述第二散度与所述散度之和的比例;根据所述第一散度与所述散度之和的比例、所述第二散度与所述散度之和的比例、所述第一分类数据集的样本量、所述第二分类数据集的样本量和预设的样本删减总量,确定所述第一样本删减比例与所述第二删减比例。
在第七方面的一种可能的实现方式中,所述预设的样本删减总量根据预设的总样本删减比例和所述原始数据集的样本总量确定。
在第七方面的一种可能的实现方式中,所述第一离散程度与所述第一样本删减比例负相关,所述第二离散程度与所述第二样本删减比例负相关。
在第七方面的一种可能的实现方式中,所述确定模块具体用于:根据所述第一样本删减比例和所述第一分类数据集的样本量确定所述第一分类数据集的第一样本删减量;根据所述第二样本删减比例和所述第二分类数据集的样本量确定所述第二分类数据集的第二样本删减量;基于所述第一样本删减量从所述第一分类数据集删减样本,以确定所述第一分类数据集保留的样本,所述第一分类数据集保留的样本的密度均值小于所述第一分类数据集的样本的密度均值;基于所述第二样本删减量从所述第二分类数据集删减样本,以确定所述第二分类数据集保留的样本,所述第二分类数据集保留的样本的密度均值小于所述第二数据集的样本的密度均值;所述密度均值为根据局部异常因子LOF算法计算的样本的异常度的均值。
在第七方面的一种可能的实现方式中,所述确定模块还用于:将根据预设的第一样本删减总量确定的所述第一目标数据集输入神经网络训练模型的第一训练周期;所述装置还包括:输入模块,用于将根据预设的第二样本删减总量确定的第二目标数据集输入神经网络训练模型的第二训练周期,所述预设的第一样本删减总量与所述预设的第二样本删减总量不同。
在第七方面的一种可能的实现方式中,所述装置还包括:输入模块,用于将所述第一目标数据集输入神经网络训练模型的第一训练周期,所述第一目标数据集包括第一训练样本;所述获取模块还用于,获取所述第一训练样本输入所述第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比;所述输入模块还用于,在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
本申请实施例第八方面提供了一种数据处理装置,包括:获取模块,用于获取第一训练样本输入第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比,所述第一训练样本为训练数据集中的样本;输入模块,用于在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
在第八方面的一种可能的实现方式中,所述输入模块具体用于:若所述第一损失大于第一阈值,则将所述第一训练样本输入第二训练周期;或者,若所述第一判错率大于第二阈值,则确定将所述第一训练样本输入第二训练周期。
在第八方面的一种可能的实现方式中,所述第一阈值为预设值,或者根据所述训练数据集的预设移除量和所有输入所述第一训练周期的样本的损失确定的阈值。
在第八方面的一种可能的实现方式中,所述第二阈值为预设值,或者根据所述训练数据集的预设移除量和所有输入所述第一训练周期的样本的判错率确定的阈值。
在第八方面的一种可能的实现方式中,所述输入模块具体用于:根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;若所述移除概率小于第三阈值,则确定将所述第一训练样本输入第二训练周期。
在第八方面的一种可能的实现方式中,所述第三阈值为预设值,或者根据输入所述第一训练周期的所有样本的损失、判错率、密度以及输入所述下一个训练周期的样本的预设移除量确定的阈值,所述密度为所述样本在根据样本类别标签确定的分类数据集中的密度。
在第八方面的一种可能的实现方式中,所述获取模块还用于,获取输入所述第一训练周期的所有样本的损失的平均值和判错率的平均值;确定模块,用于根据所述第一损失是否小于所述损失的平均值,以及所述第一判错率是否小于所述判错率的平均值,确定所述第一训练样本的目标组别,所述目标组别包括第一分组、第二分组、第三分组或第四分组,所述第一分组的样本的损失大于或等于所述损失的平均值,所述第一分组的样本的判错率大于或等于所述判错率的平均值;所述第二分组的样本的损失大于或等于所述损失的平均值,所述第二分组的样本的判错率小于所述判错率的平均值;所述第三分组的样本的损失小于所述损失的平均值,所述第三分组的样本的判错率小于所述判错率的平均值;所述第四分组的样本的损失小于所述损失的平均值,所述第四分组的样本的判错率大于或等于所述判错率的平均值;所述确定模块还用于,根据所述目标组别的样本量和预设的所述目标组别的样本移除比例,确定所述目标组别的样本移除量,所述第一分组的移除比例小于所述第二分组的移除比例和所述第四分组的移除比例,所述第三分组的移除比例大于所述第二分组的移除比例和所述第四分组的移除比例;所述确定模块还用于,根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;所述确定模块还用于,若所述第一训练样本的移除概率小于预设阈值,则确定将所述第一训练样本输入第二训练周期,所述概率阈值根据所述目标组别的所有样本的损失、判错率和所述目标组别的样本移除量确定。
本申请实施例第九方面提供了一种数据处理装置,包括:存储器,用于存储指令;处理器,用于执行该存储器中的指令,使得该数据处理装置执行如前述第一方面或第二方面及各实现方式中任一项该的方法。
本申请实施例第十方面提供了一种计算机程序产品,该计算机程序产品包括指令,当该指令在计算机上运行时,使得该计算机执行如前述第一方面或第二方面及各实现方式中任一项该的方法。
本申请实施例第十一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储指令,当该指令在计算机上运行时,使得该计算机执行如前述第一方面或第二方面及各实现方式中任一项该的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供的数据处理方法,通过样本类别标签获取分类数据集,根据分类数据集的离散程度确定删减比例,根据分类数据集的样本量和删减比例进行样本删减,确定保留的目标样本。由于不同类别标签的分类数据集的离散程度不同,根据离散程度确定删减比例,可以更多地保留离散程度高的分类数据集的样本,从而在原始数据集删减比例一定的条件下,使得神经网络模型的训练精度得以提高。由于更多地保留离散程度高的分类数据集的样本,在维持神经网络模型的训练精度不变的条件下,可以避免重复训练相似度较高的样本,可以降低训练时长。
此外,本申请实施例提供的数据处理方法,若根据损失和/或判错率确定样本对于训练模型的难度较低,将不会参与下一训练周期。通过样本损失和/或判错率确定是否参与下一周期训练,可以动态调整参与训练的样本,由于参与每个训练周期的样本仅为数据集中的部分,可以降低训练时长。
附图说明
图1为数据集精炼系统架构图;
图2为本申请实施例中数据处理方法的一个实施例示意图;
图3为本申请实施例中数据处理方法的另一个实施例示意图;
图4为本申请实施例中数据处理方法的一个实施例示意图;
图5为本申请实施例中根据样本异常度删减样本的一个实施例示意图;
图6本申请实施例中按照损失和判错率进行四空间分组的示意图;
图7为本申请实施例中数据处理装置的一个实施例示意图;
图8为本申请实施例中数据处理装置的另一个实施例示意图;
图9为本申请实施例中数据处理方法的系统架构示意图;
图10为本申请实施例中数据处理装置的一个实施例示意图。
具体实施方式
本申请实施例提供了一种数据处理方法,用于精炼数据集,可以在数据集删减比例一定的条件下,提升训练精度;或者,在训练精度不变的条件下,降低训练时长。
深度学习是机器学习中的一个分支,在深度学习的实际应用中,通常根据原始数据集预先训练出深度学习网络模型,然后通过该网络模型进行后续的预测工作。
随着深度神经网络模型性能的不断提升,模型的深度和计算复杂度也在不断提升,从而导致深度神经网络模型的训练时间也不断增加。通过对数据集进行精炼,去除部分冗余或者强相关的数据,可以加速神经网络模型的训练过程。
对数据集进行精炼,根据精炼后的数据集进行训练,可以使得深度学习模型在保持较高测试精度的情况下,训练时长降低。
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。
请参阅图1,为数据集精炼系统架构图。
原始数据集包括多个样本,通过数据精炼算法采样原始数据集,获取样本抽样权重,按权重在每个训练周期随机采样,获取精炼后的目标数据集,将该目标数据集输入待训练网络模型进行训练。训练后的网络模型通过输入验证数据集进行验证,可以确定该训练后的网络模型的训练精度。
例如,通过本申请实施例提供的数据处理方法,对ImageNet数据集进行分析和精简,在训练ResNet50网络模型的过程中,从ImageNet数据集中去除一部分冗余或者强相关的数据来加速神经网络的训练过程,同时能够保证经过训练所得到的网络模型能够保持一个较高的训练精度。
本申请实施例提供的数据集处理方法,用于精炼数据集,一种方法为将数据集输入待训练网络模型之前对数据集进行删减,本申请实施例中将该数据集精炼过程简称为静态精炼;另一种方法为将数据集输入待训练网络模型中,在训练过程中,对输入每个训练周期的数据集进行部分移除,本申请实施例中将该数据集精炼过程简称为动态精炼。
需要说明的是,对于网络模型训练的数据集处理,可以单独实现静态精炼或动态精炼的方案,也可以同时实施静态精炼和动态精炼方案,具体此处不做限定。下面对静态精炼和动态精炼的具体实现方法进行介绍。
请参阅图2,为本申请实施例中数据处理方法的一个实施例示意图。
201、根据样本类别标签对原始数据集分类;
原始数据集通常包括大量样本,每个样本具有类别标签,用于指示该样本的类别,类别标签也称为标签或注释。
根据样本类别标签可以对原始数据集进行分类,获取多个分类数据集,该多个分类数据集中至少包括两个分类数据集,第一分类数据集和第二分类数据集。
202、确定该第一分类数据集的第一离散程度和该第二分类数据集的第二离散程度;
确定该第一分类数据集的第一离散程度和该第二分类数据集的第二离散程度,离散程度(dispersion)是指一个分布压缩和拉伸的程度,与位置或者集中趋势相对。离散程度可通过方差、标准差和四分位距等度量。本申请实施例中可以根据离散程度指示分类数据集的样本的相似程度。
203、根据该第一离散程度、该第二离散程度确定该第一分类数据集的第一样本删减比例和该第二分类数据集的第二样本删减比例;
根据离散程度确定分类数据集的样本删减比例,若分类数据集的离散程度大,代表样本相似度较低,样本分散,删减比例应降低,避免丢失价值较高的样本;反之,分类数据集的离散程度小,代表样本相似度高,样本分布集中,可以提高删减比例,减少重复训练。
由于第一离散程度大于该第二离散程度,因此,第一样本删减比例小于该第二样本删减比例。
可选的,第一离散程度与第一样本删减比例负相关,即当其他分类数据集的离散程度不变时,第一样本删减比例随第一离散程度的增大而减小,第一样本删减比例随第一离散程度的减小而增大,第一样本删减比例与第一离散程度的相关系数为负值。类似的,第二离散程度与第二样本删减比例负相关,当其他分类数据集的离散程度不变时,第二样本删减比例随第二离散程度的增大而减小,第二样本删减比例随第二离散程度的减小而增大,第二样本删减比例与第二离散程度的相关系数为负值。
204、获取目标数据集;
确定第一样本删减和第二样本删减比例之后,可以根据该第一样本删减比例、该第二样本删减比例、该第一分类数据集的样本量、该第二分类数据集的样本量和预设的样本删减总量,从该第一分类数据集按照该第一样本删减量删减样本,从该第二分类数据集按照该第二样本删减量删减样本,根据第一分类数据集保留的样本,以及第二分类数据集保留的样本,可以得到保留的目标数据集。
本申请实施例提供的数据处理方法,通过样本类别标签获取分类数据集,根据分类数据集的离散程度确定删减比例,根据分类数据集的样本量和删减比例进行样本删减,确定保留的目标样本。由于不同类别标签的分类数据集的离散程度不同,根据离散程度确定删减比例,可以更多地保留离散程度高的分类数据集的样本,从而在原始数据集删减比例一定的条件下,使得神经网络模型的训练精度得以提高;或者,在训练精度不变的条件下,降低训练时长。
请参阅图3,为本申请实施例中数据处理方法的另一个实施例示意图。
301、获取输入神经网络模型训练的目标数据集;
获取输入神经网络模型训练的目标数据集,该目标数据集可以是从网上下载的原始数据集,也可以是经过静态精炼的数据集,具体此处不做限定。
该神经网络模型训练包括多个训练周期,该目标数据集包括输入第一训练周期的第一训练样本。
302、确定该第一训练样本的第一损失和/或第一判错率;
第一训练样本为输入第一训练周期的样本,确定第一训练周期中,该第一训练样本的第一损失和/或第一判错率。损失,是神经网络模型训练中的一个衡量指标,用于衡量模型的预测偏离其标签的程度。判错率为错判次数和训练次数的比值,错判次数为该样本被错判的次数,训练次数为该样本参与训练的次数,即输入训练周期的次数。
303、若该第一损失和/或该第一判错率满足预设条件,则确定将该第一训练样本输入第二训练周期;
该第二训练周期为该第一训练周期的下一个训练周期。
根据该损失和/或判错率,确定输入下一训练周期的样本的方式有多种,具体此处不做限定。
可以理解的是,样本的loss越大,表明它对于模型来说是难例,更需要输入模型训练,输入下一训练周期的概率越大,移除概率越小;反之loss越小,移除概率越大。样本的判错率越大,表明该样本容易被模型分辨错,为一个难例,移除概率越小;反之判错率越小,则表明该样本对模型来说是容易判断的,对模型后续的训练起到的帮助不大,移除概率越大。
可选的,获取输入第一训练周期的第一训练样本集的loss,将第一训练样本集中的样本按照loss从小到大排序开始移除,直至移除的样本数量达到预设数值或预设比例;或者移除loss小于预设的损失阈值的样本。
可选的,获取输入第一训练周期的第一训练样本集的判错率,将第一训练样本集中的样本按照判错率从小到大排序开始移除,直至移除的样本数量达到预设数值或预设比例;或者移除判错率小于预设的判错率阈值的样本。
可选的,综合考虑样本的损失和判错率,根据损失和判错率两个维度,将样本划分为四组。具体的,以判错率为X轴,损失为Y轴,(判错率均值,损失均值)为原点,将样本划分至四个象限中,得到四个空间分组,根据预设的四个空间分组的移除率占总移除率的比例,确定每个空间分组的移除数量。从一个空间分组中确定被移除的样本的方法有多种,可选的,随机移除;可选的,根据样本的损失和判错率,以及样本的异常度确定被移除的样本,具体此处不做限定。
需要说明的是,输入第一训练周期的样本为目标数据集中的部分,对于未输入第一训练周期的移除样本集,可以根据预设的规则,全部输入第一训练周期的下一训练周期;或者,根据未输入第一训练周期的移除样本集中的样本最后一次输入训练周期的损失和判错率,确定是否输入第一训练周期的下一训练周期,具体此处不做限定。
现有技术中,输入神经网络训练模型的数据集中所有的样本将被输入每个训练周期,由于训练过程中,神经网络训练模型的参数不断调整,样本对于训练模型的难易程度动态变化,即不同训练周期中样本的训练价值会改变,所有的样本将被输入每个训练周期进行训练,训练时间较长。
本申请实施例提供的数据处理方法,若根据损失和/或判错率确定样本对于训练模型的难度较低,将不会参与下一训练周期。通过样本损失和/或判错率确定是否参与下一周期训练,可以动态调整参与训练的样本,由于参与每个训练周期的样本仅为数据集中的部分,可以降低训练时长。
请参阅图4,为本申请实施例中数据处理方法的一个实施例示意图。
401、提取原始数据集中的样本的特征;
获取用于深度学习模型训练的原始数据集,该原始数据集可以通过多种方式获取,此处不做限定,例如,训练图像分类的深度神经网络模型时,可以从网上下载ImageNet数据集,ImageNet是用于视觉对象识别软件研究的大型可视化数据库,可以提供用于模型训练的数据集。
提取原始数据集中的样本的特征。对于原始数据集,首先使用预训练的网络(例如VGG-19Resnet-50等)提取最后一个卷积层的特征。
402、根据样本的类别标签进行分类;
该原始数据集中的样本具有类别标签,根据类别标签可以对样本进行分类。例如,原始数据集中的图片样本的类别标签可能为“猫”或“狗”等,将类别标签为“猫”的分为一类,类别标签为“狗”的分为另一类。
需要说明的是,步骤401和步骤402之前的执行顺序不做限定。可以先执行步骤401再执行步骤402,将提取的原始数据集的样本的特征按照样本的类别标签进行分类,获取分类数据集的样本的特征。也可以先执行步骤402再执行步骤401,先将原始数据集按照样本的类别标签进行分类,得到分类数据集,再提取样本的特征,获取分类数据集的样本的特征,具体此处不做限定。
403、确定分类数据集的平均散度;
计算每个分类数据集的平均散度,平均散度可以用于度量分类数据集的离散程度,分类数据集的平均散度可以基于该分类数据集中所有样本进行计算,也可以根据该分类数据集中的部分样本进行计算,具体此处不做限定。若根据分类数据集中的部分样本计算该分类数据集的平均散度,首先需要从该分类数据集中随机选取或者根据预设的规则筛选样本,然后根据筛选的样本进行平均散度的计算。示例性的,通过计算一个分类数据集中的所有样本中任意两个样本的散度,然后取均值,即可获取该分类数据集的平均散度。分类数据集的平均散度可以用于度量该分类数据集的离散程度。任意两个样本的散度可以是KL散度,也可以是JS散度等,此处不做限定。
信息散度(Kullback–Leibler divergence),又称相对熵,通常简称为KL散度,是描述两个概率分布P和Q差异的一种方法。它是非对称的,这意味着D(P||Q)≠D(Q||P)。由于KL散度具有不对称性,根据样本KL散度确定分类数据集的平均散度时,首先需要获取该分类数据集中任意两个样本的排列,并计算每个排列的KL散度,将所有排列的KL散度之和除以排列数,即可获取该分类数据集的平均KL散度。
由于杰森-香农散度(Jensen-Shannon divergence),通常简称JS散度,是KL散度的一种变形,具有对称性,根据样本JS散度确定分类数据集的平均散度时,只需要获取该分类数据集中任意两个样本的组合,并计算每个组合的JS散度,将所有组合的JS散度之和除以组合数,即可获取该分类数据集的平均JS散度。
下面以JS散度为例进行介绍,JS散度计算公式如下:
JS(P||Q)=1/2KL(P||(P+Q)/2)+1/2KL(Q||(P+Q)/2)
其中,P和Q代表分类数据集中的样本p的特征向量和样本q的特征向量,JS(P||Q)代表,P和Q之间的JS散度,KL代表KL散度,可以用于衡量两个特征向量的相似度。
类似地,可以计算所有分类数据集的平均散度。
404、根据分类数据集的散度确定该分类数据集的样本删减量;
分类数据集的散度用于度量该分类数据集的离散程度,离散程度越小,代表样本越趋于近似,因此越应该精简。根据原始数据集的样本总删减量和各个分类数据集的散度,确定各个分类数据集样本删减量的具体实现方式有多种,此处不做具体限定。
可选地,根据分类数据集的平均散度占所有分类数据集的平均散度之和的比例确定各个分类数据集的样本删减比例的比值。分类数据集的样本删减比例为该分类数据集中删减的样本量占该分类数据集的样本总量的比例,按照预设的原始数据集的总删减比例和原始数据集的样本数量,可以确定样本的总删减量,进而确定每个分类数据集的删减比例和删减量。
示例性的,若原始数据集样本量为1000,需要删减10%的样本,即总删减量为100,第一分类数据集样本数为400,平均散度为0.02,第二分类数据集样本数为600,平均散度为0.03,确定第一分类数据集的删减比例与第二分类数据集的删减比例的比值为3:2。总删减量为100,进而可以确定第一分类数据集的删减量为50,第二分类数据集的删减量为50。
示例性的,先根据分类数据集的平均散度占所有分类数据集的平均散度之和的散度比例;根据散度比例计算分类数据集的样本删减比例,具体的,请参阅表1,为计算分类数据集的样本删减量的计算过程:首先确定分类数据集的平均散度占所有分类数据集的平均散度之和的散度比例,然后将1-散度比例进行归一化处理确保所有分类数据集的删减比例相加总和为1;可以得到3个类别的分类数据集的删减比例的比值为35%:25%:40%。最后,根据预设的总删减比例,例如设定为10.95%,原始数据集的样本总量2000,确定每个分类数据集的样本删减量,分别为84、15和120。
表1
序号 类别1 类别2 类别3 总计
/ 样本数 800 200 1000 2000
1 平均散度 0.03 0.05 0.02 0.1
2 散度比例 30% 50% 20% 1
3 1-散度比例 70% 50% 80% 2
4 删减比例 35% 25% 40% 1
5 总删减比例 - - - 10.95%
6 样本删减比例 10.5% 7.5% 12% -
7 样本删减量 84 15 120 219
405、根据样本的密度和样本删减数量,确定保留的目标样本;
计算分类数据集中每个样本的密度,样本的密度可以反映在分类数据集中该样本附近的样本密集程度;按照分类数据集中密度越大的样本越应该被移除的原则进行删减,最终确定该分类数据集中应保留的目标样本,类似地,确定每个分类数据集保留的目标样本。
步骤404中,确定了每个分类数据集的样本删减量,进一步,需要确定应删减哪些样本。按照分类数据集中密度越大的样本越应该被移除的原则进行删减。
计算样本的密度的方式有多种,此处不做限定,下面介绍根据局部异常因子(local outlier factor,LOF)算法确定样本的密度的方法。LOF算法计算得到的异常度,代表一个样本点周围的样本点所处位置的平均密度,与该样本点所在位置的密度之比,比值越大于1,则表明该点所在位置的密度越小于其周围样本所在位置的密度,这个点就越有可能是异常点。根据LOF算法计算得到的异常度数值越大表明该样本越异常,即不处于密集区域,密度越小。
对分类数据集中所有的样本按照LOF算法进行计算,得到每个样本的异常度,然后根据样本的异常度进行样本删减,确定保留的目标样本。
可以理解的是,异常度数值越大表明该样本越异常,即不处于密集区域,密度越小,样本被删减的概率越小,反之,异常度数值越小表明该样本越普通,即处于密集区域,密度越大,样本被删减的概率越大。根据样本的异常度进行样本删减的具体方式有多种,此处不做限定。
可选地,对于一个分类数据集,将样本按照异常度由小至大排序,从异常度小的样本开始删减,直至完成确定的样本删减量,确定剩下为删减的样本为该分类数据集保留的目标样本。类似地,确定所有分类数据集保留的目标样本。
可选地,对于一个分类数据集,将样本按照异常度由小至大排序,由于,序列前端的样本异常度小,样本非常相似,因此,可以大量删减,而不会使得训练模型错失过多的不同信息,而对于序列尾端的样本,考虑到非常异常的样本可以近似看做噪声点,会影响到模型的判断,因此可以少量删减,而不全局保留。对于序列中段的样本,考虑到模型训练的随机性,可酌情移除少量样本。
示例性的,请参阅图5,为本申请实施例中根据样本异常度删减样本的一个实施例示意图,从序列前端删减该分类数据集样本删减量82%的样本,从序列尾端删减该分类数据集样本删减量3%的样本,从序列中间删减该分类数据集样本删减量15%的样本。
可选地,将分类数据集按照异常度大小分组,进而根据预设的删减比例确定每组的样本删减量。将分类数据集按照异常度大小分组的方式有多种,此处不做限定,示例性的:对于一个分类数据集,将样本按照异常度数值由小至大排序,并平均分为三组,分别为第一样本集、第二样本集和第三样本集。其中,第一样本集中任一样本的异常度小于第二样本集中任一样本的异常度,第二样本集中任一样本的异常度小于第三样本集中任一样本的异常度。由于,第一样本集中的样本属于密集区域,样本非常相似,因此,可以大量删减,而不会使得训练模型错失过多的不同信息,而对于第三样本集,考虑到非常异常的样本可以近似看做噪声点,会影响到模型的判断,因此可以少量删减,而不全局保留。对于第二样本集中的密度适中样本,考虑到模型训练的随机性,可酌情移除少量样本。因此,对于第一样本集至第三样本集,按照样本删减比例依次降低的策略进行删减。可选地,预设样本删减比例,例如,第一样本集的删减比例为82%,第二样本集的删减比例为15%,第三样本集的删减比例为3%。具体的删减比例可以根据实际情况确定,此处不做限定,可以理解的是,第一样本集的删减比例大于第二样本集的删减比例,第二样本集的删减比例大于第三样本集的删减比例。
示例性的,以表1中的类别1为例,对800个样本计算得到LOF异常度后,按照异常度由小至大进行排序,第一样本集为前266个样本,从第一样本集删减82%比例的样本,由于类别1的分类数据集的样本删减量为84,第一样本集的删减量即为0.82×84=68,类似地,第二样本集为中间266个样本,从中删减15%比例的样本,删减量即0.15×84=13,第三样本集为尾部267个样本,删减3%比例的样本,删减量即0.03×84=3。
对于其他的分类数据集,同样按照这种策略进行样本删减。由此,可以获取目标样本构成的目标数据集。
该目标数据集可用于输入神经网络模型进行训练。然后将其输入到带有动态精炼装置的分类网络进行训练。
406、确定第一训练周期中,第一训练集的样本的损失(loss)和判错率;
步骤405中确定目标数据集后,可以将该目标数据集直接输入深度学习网络模型进行第一周期的训练;也可以随机选取预设数量的样本输入深度学习网络模型进行第一周期的训练,具体此处不做限定。
可选的,将目标数据集输入深度学习网络模型的第一训练周期,可以获取第一训练周期中,目标数据集中的样本的损失、错判次数和训练次数。错判次数为该样本被错判的次数,训练次数为该样本参与训练的次数,即输入训练周期的次数。
对于一个训练周期,可以获取输入该训练周期的每个样本的loss,样本的loss越大,表明它对于模型来说是难例,需要更多次的监督学习,但同时它也可能是一个异常的样本,会干扰模型的判断。因此引入样本的第二个特征,判错率进行判断,判错率=判错次数/训练次数。若判错率大,那么表明这个样本总是被模型分辨错,为一个难例,判错率小,则表明该样本对模型来说是容易判断的,对模型后续的训练起到的帮助不大。
407、根据样本的损失和判错率,确定输入下一训练周期的样本;
根据样本的损失和判错率,确定输入下一训练周期的样本的方式有多种,具体此处不做限定。
下面以综合考虑样本的损失和判错率,确定输入下一训练周期的样本为例进行介绍:
可选的,若根据损失(loss)和判错率(incorrect_rate)两个维度进行分组,可以构造出四个象限,请参阅图6,为本申请实施例中按照损失和判错率进行四空间分组的示意图。由于判错率的范围为[0,1],为保证损失和判错率的维度一致,将loss进行归一化处理为标准损失(loss_norm),原点坐标设定为(归一化损失的均值,判错率的均值)(avg_loss_norm,avg_incorrect_rate)。
如图6所示,根据每个样本的归一化loss和判错率,将样本映射到图像中,每个象限为一个空间分组:
第一象限的样本损失大于或等于归一化损失的均值,且判错率大于或等于判错率的均值;
第二象限的样本损失大于或等于归一化损失的均值,且判错率小于判错率的均值;
第三象限的样本损失小于归一化损失的均值,且判错率小于判错率的均值;
第四象限的样本损失小于归一化损失的均值,且判错率大于或等于判错率的均值;
其中,由于第三象限的样本损失小于归一化损失的均值,且判错率小于判错率的均值,可定义为容易样本空间,该空间分组样本可大量移除,例如设置移除比例为总移除比例的79%。第一象限的样本损失大于归一化损失的均值,且判错率大于判错率的均值,可定义为难例样本空间,考虑到该空间分组可能存在异常样本,干扰模型的判断,可移除少量样本,移除比例可以设置为1%。第二象限的样本损失大于归一化损失的均值,且判错率小于判错率的均值,该空间分组样本虽然损失较大,但很少判错,可定义为半容易样本空间,移除少量样本,移除比例可以设置为15%。第四象限的样本loss小于均值,incorrect_rate大于均值,表明模型对于该空间组的样本并未完全掌握,可定义为特殊难例样本空间,还需要继续训练,可微量移除,移除比例可以设置为5%。需要说明的是,各空间组的移除比例可以根据实际应用情况先设定,具体移除比例的大小此处不做具体限定。
可以理解的是,本训练周期未参与训练的样本可以根据最近一次参与训练后划分的象限合并入上述分组中。
根据四个象限中每组样本的样本量和移除比例确定每组的样本移除量后,需要进一步确定移除哪些样本,从而确定进入下一周期进行网络模型训练的训练样本。
移除样本的方式有多种,可以根据该训练周期中,样本的损失从小至大进行移除;也可以根据该训练周期中,样本的判错率从小至大进行移除,具体此处不做限定。
可选的,综合考虑样本的损失和判错率进行移除,以确定输入下一周期训练的样本。
下面进行具体介绍:
每个样本的移除概率,计算公式如下:
samp_prob[i]=old_samp_prob[i]+e^[(loss_norm[i]–avg_loss)^2+(incorrect_rate[i]–avg_incorrect_rate)^2]*(max_lof_value–lof_value[i])
其中,samp_prob[i]为样本i在本训练周期的移除概率;
old_samp_prob[i]指样本在上一训练周期的移除概率;
[(loss_norm[i]–avg_loss)^2+(incorrect_rate[i]–avg_incorrect_rate)^2]指每个样本距离远点原点的距离,考虑到取值在[0,1]之间,所以取指数,保证相乘的单调性,距离原点越远,则样本越应该移除。
max_lof_value是指该样本在根据标签类别划分的分类数据集中的最大异常度lof值,lof_value。
示例性的,对于输入第三个训练周期的样本而言,需获取该样本在第二个训练周期中的移除概率;对于第一个训练周期而言,可以根据目标数据集中样本的异常度确定样本的初始移除概率,作为该样本输入第一个训练周期之前的移除概率。
初始移除概率的计算方法为:根据样本在根据标签类别确定的分类数据集中的密度,例如异常度,对目标数据集中每个标签类别的数据集中的样本进行最大最小值归一化,将归一化的异常度作为样本的初始的移除概率。
针对当前epoch被移除的样本集A,由于未参与训练,故无法计算出当前的loss和incorrect_rate,因此为了保证后续和样本集B的samp_prob的可比性,仍需要更新样本集A的当前移除概率,可以将已有概率按比例放大,计算公式如下:
samp_prob[i]=old_samp_prob[i]*num_epochs/real_training_times[i]
其中,samp_prob[i]为样本i在本训练周期的移除概率;
old_samp_prob[i]指样本在上一训练周期的移除概率;
num_epochs为训练周期数量;
real_training_times[i]为样本i实际参与训练周期的次数。
由于神经网络模型训练包括多个训练周期,类似地,对于后续训练周期进行样本移除。
根据样本的移除概率移除样本,以确定进入下一训练周期的样本,
需要说明的是,通过预设的总移除比例确定每个训练周期的样本移除比例,其中,每个训练周期的样本移除比例可以相同,也可以不同,此处不做限定。
408、将样本输入训练周期进行训练,输出训练后的网络模型。
根据步骤407确定的输入每个训练周期的样本进行训练,获取模型参数,输出训练后的网络模型,训练后的网络模型通过验证数据集可以确定其训练精度。
上面介绍了精炼数据集的数据处理方法,下面对实现数据处理方法的装置进行介绍:
请参阅图7,为本申请实施例中数据处理装置的一个实施例示意图。
本申请实施例提供的数据处理装置,包括:
获取模块701,用于获取原始数据集;
确定模块702,用于根据该原始数据集中样本的类别标签,确定多个分类数据集,该多个分类数据集包括第一分类数据集和第二分类数据集;
该确定模块702,还用于确定该第一分类数据集的第一离散程度和该第二分类数据集的第二离散程度;
该确定模块702,还用于根据该第一离散程度和该第二离散程度确定该第一分类数据集的第一样本删减比例和该第二分类数据集的第二样本删减比例,若该第一离散程度大于该第二离散程度,则该第一样本删减比例小于该第二样本删减比例,若该第一离散程度小于或等于该第二离散程度,则该第一样本删减比例大于或等于该第二样本删减比例;
该确定模块702,还用于确定目标数据集,该目标数据集包括该第一分类数据集保留的样本和该第二分类数据集保留的样本,该第一分类数据集保留的样本根据该第一样本删减比例、该第一分类数据集的样本量和预设的样本删减总量确定,该第二分类数据集保留的样本根据该第二样本删减比例、该第二分类数据集的样本量和预设的样本删减总量确定。
可选的,该第一离散程度为根据该第一分类数据集中所有样本的特征向量确定的第一平均散度;该第二离散程度为根据该第二分类数据集中所有样本的特征向量确定的第二平均散度。
可选的,该第一平均散度为第一相对熵KL散度或第一杰森香农JS散度的平均值,该第一KL散度为该第一分类数据集中任意两个样本的特征向量的KL散度,该第一JS散度为该第一分类数据集中任意两个样本的特征向量的JS散度;
该第二平均散度为第二KL散度或第二JS散度的平均值,该第二KL散度为该第二分类数据集中任意两个样本的特征向量的KL散度,该第二JS散度为该第二分类数据集中任意两个样本的特征向量的JS散度。
可选的,该第一离散程度与该第一样本删减比例负相关,该第二离散程度与该第二样本删减比例负相关。
可选的,该确定模块702具体用于:
确定该多个分类数据集中每个分类数据集的散度之和;
确定该第一散度与该散度之和的比例,以及该第二散度与该散度之和的比例;
根据该第一散度与该散度之和的比例、该第二散度与该散度之和的比例、该第一分类数据集的样本量、该第二分类数据集的样本量和预设的样本删减总量,确定该第一样本删减比例与该第二样本删减比例。
可选的,该确定模块702具体用于:
根据该第一分类数据集的样本的密度和该第一样本删减比例确定该第一分类数据集保留的样本,该第一分类数据集保留的样本的平均密度小于该第一分类数据集的样本的平均密度;
根据该第二数据集的样本的密度和该第二样本删减比例确定该第二分类数据集保留的样本,该第二分类数据集保留的样本的平均密度小于该第二数据集的样本的平均密度。
可选的,该样本的密度为根据局部异常因子LOF算法计算的样本的异常度。
可选的,该装置还包括:
输入模块703,用于将该目标数据集输入神经网络训练模型的第一训练周期,该目标数据集包括第一训练样本;
该获取模块701还用于,获取该第一训练样本输入该第一训练周期的第一损失和/或第一判错率,该第一判错率为该第一训练样本的错判次数与训练次数之比;
该输入模块703还用于,在该第一损失和/或该第一判错率满足预设条件的情况下,将该第一训练样本输入第二训练周期,该第二训练周期为该第一训练周期的下一个训练周期。
请参阅图8,为本申请实施例中数据处理装置的另一个实施例示意图。
本申请实施例提供的一种数据处理装置,包括:
获取模块801,用于获取第一训练样本输入第一训练周期的第一损失和/或第一判错率,该第一判错率为该第一训练样本的错判次数与训练次数之比;
输入模块802,用于在该第一损失和/或该第一判错率满足预设条件的情况下,将该第一训练样本输入第二训练周期,该第二训练周期为该第一训练周期的下一个训练周期。
可选的,该输入模块802具体用于:
若该第一损失大于第一阈值,则将该第一训练样本输入第二训练周期;或者,
若该第一判错率大于第二阈值,则确定将该第一训练样本输入第二训练周期。
可选的,该第一阈值为预设值,或者根据预设移除量和输入该第一训练周期的所有样本的损失确定的阈值。
可选的,该第二阈值为预设值,或者根据预设移除量和输入该第一训练周期的所有样本的判错率确定的阈值。
可选的,该输入模块802具体用于:
根据该第一损失和该第一判错率确定该第一训练样本的移除概率;
若该移除概率小于第三阈值,则确定将该第一训练样本输入第二训练周期。
可选的,该第三阈值为预设值,或者根据输入该第一训练周期的所有样本的损失、判错率、密度以及预设移除量确定的阈值,该密度为该样本在根据样本类别标签确定的分类数据集中的密度。
可选的,该获取模块801还用于,获取输入该第一训练周期的所有样本的损失的平均值和判错率的平均值;
确定模块803,用于根据该第一损失是否小于该损失的平均值,以及该第一判错率是否小于该判错率的平均值,则确定该第一训练样本的目标组别;
该确定模块803还用于,根据该第一分组的样本量和预设的该目标组别的移除比例,确定该目标组别的样本移除量;
该确定模块803还用于,根据该第一损失和该第一判错率确定该第一训练样本的移除概率;
该确定模块803还用于,若该第一训练样本的移除概率小于预设阈值,则确定将该第一训练样本输入第二训练周期,该概率阈值为预设值,或者根据该第一分组的所有样本的损失、判错率、密度和该第一分组的样本移除量确定的阈值,该密度为该样本在根据样本类别标签的分类数据集中的密度。
请参阅图9,为本申请实施例中数据处理方法的系统架构示意图。
从网络下载或公司内部标注等途径获取原始数据集,即训练数据集,通过预训练网络进行特征提取,然后输入静态数据精炼装置进行静态精炼,删减部分样本,经过静态精炼的数据集输入待训练网络,训练过程包括n个训练周期(epoch),在训练过程中可以通过动态数据精炼装置数据集进行筛选,移除部分样本后再输入每个训练周期,经过n个训练周期后获取训练好的模型,得到模型参数,输出模型的训练精度。静态精炼过程和动态精炼过程的具体实现过程可以参考图2至4对应的实施例,此处不再赘述。
产品实现形态可以为部署在电子设备上的软件,例如可以是包含在数据引擎(DataEngine)系统软件中,并部署在服务器硬件上的程序代码。该程序代码存在于数据预处理系统件的运行时训练模块和推理模块中。运行时,本申请的程序代码运行于服务器的主机存储和加速硬件(GPU/FPGA/专用芯片)内存。
请参阅图10,为本申请实施例中一种数据处理装置的另一个实施例示意图。本实施例提供的数据处理装置,可以为服务器或者终端等电子设备,本申请实施例中对其具体设备形态不做限定。
该数据处理装置1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1001和存储器1002,该存储器1002中存储有程序或数据。
其中,存储器1002可以是易失性存储或非易失性存储。可选地,处理器1001是一个或多个中央处理器(CPU,Central Processing Unit,该CPU可以是单核CPU,也可以是多核CPU。处理器1001可以与存储器1002通信,在数据处理装置1000上执行存储器1002中的一系列指令。
该数据处理装置1000还包括一个或一个以上有线或无线网络接口1003,例如以太网接口。
可选地,尽管图10中未示出,数据处理装置1000还可以包括一个或一个以上电源;一个或一个以上输入输出接口,输入输出接口可以用于连接显示器、鼠标、键盘、触摸屏设备或传感设备等,输入输出接口为可选部件,可以存在也可以不存在,此处不做限定。
本实施例中数据处理装置1000中的处理器1001所执行的流程可以参考前述方法实施例中描述的方法流程,此处不加赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (35)

1.一种数据处理方法,其特征在于,包括:
获取原始数据集;
根据所述原始数据集中样本的类别标签,确定多个分类数据集;
所述多个分类数据集包括第一分类数据集和第二分类数据集;
确定所述第一分类数据集的第一离散程度和所述第二分类数据集的第二离散程度;
根据所述第一离散程度和所述第二离散程度确定所述第一分类数据集的第一样本删减比例和所述第二分类数据集的第二样本删减比例,若所述第一离散程度大于所述第二离散程度,则所述第一样本删减比例小于所述第二样本删减比例,若所述第一离散程度小于或等于所述第二离散程度,则所述第一样本删减比例大于或等于所述第二样本删减比例;
确定第一目标数据集,所述第一目标数据集包括所述第一分类数据集保留的样本和所述第二分类数据集保留的样本,所述第一分类数据集保留的样本根据所述第一样本删减比例、所述第一分类数据集的样本量和预设的第一样本删减总量确定,所述第二分类数据集保留的样本根据所述第二样本删减比例、所述第二分类数据集的样本量和预设的样本删减总量确定。
2.根据权利要求1所述的方法,其特征在于,
所述第一离散程度为根据所述第一分类数据集中所有样本的特征向量确定的第一平均散度;所述第二离散程度为根据所述第二分类数据集中所有样本的特征向量确定的第二平均散度。
3.根据权利要求2所述的方法,其特征在于,
所述第一平均散度为第一相对熵KL散度或第一杰森香农JS散度的平均值,所述第一KL散度为所述第一分类数据集中任意两个样本的特征向量的KL散度,所述第一JS散度为所述第一分类数据集中任意两个样本的特征向量的JS散度;
所述第二平均散度为第二KL散度或第二JS散度的平均值,所述第二KL散度为所述第二分类数据集中任意两个样本的特征向量的KL散度,所述第二JS散度为所述第二分类数据集中任意两个样本的特征向量的JS散度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一离散程度和所述第二离散程度确定所述第一分类数据集的第一样本删减比例和所述第二分类数据集的第二样本删减比例包括:
确定所述多个分类数据集中每个分类数据集的散度之和;
确定所述第一散度与所述散度之和的比例,以及所述第二散度与所述散度之和的比例;
根据所述第一散度与所述散度之和的比例、所述第二散度与所述散度之和的比例、所述第一分类数据集的样本量、所述第二分类数据集的样本量和预设的样本删减总量,确定所述第一样本删减比例与所述第二样本删减比例。
5.根据权利要求4所述的方法,其特征在于,所述预设的样本删减总量根据预设的总样本删减比例和所述原始数据集的样本总量确定。
6.根据权利要求1所述的方法,其特征在于,所述第一离散程度与所述第一样本删减比例负相关,所述第二离散程度与所述第二样本删减比例负相关。
7.根据权利要求1所述的方法,其特征在于,所述确定第一目标数据集包括:
根据所述第一样本删减比例和所述第一分类数据集的样本量确定所述第一分类数据集的第一样本删减量;
根据所述第二样本删减比例和所述第二分类数据集的样本量确定所述第二分类数据集的第二样本删减量;
基于所述第一样本删减量从所述第一分类数据集删减样本,以确定所述第一分类数据集保留的样本,所述第一分类数据集保留的样本的密度均值小于所述第一分类数据集的样本的密度均值;
基于所述第二样本删减量从所述第二分类数据集删减样本,以确定所述第二分类数据集保留的样本,所述第二分类数据集保留的样本的密度均值小于所述第二数据集的样本的密度均值;
所述密度均值为根据局部异常因子LOF算法计算的样本的异常度的均值。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将根据预设的第一样本删减总量确定的所述第一目标数据集输入神经网络训练模型的第一训练周期;
将根据预设的第二样本删减总量确定的第二目标数据集输入神经网络训练模型的第二训练周期,所述预设的第一样本删减总量与所述预设的第二样本删减总量不同。
9.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
将所述第一目标数据集输入神经网络训练模型的第一训练周期,所述第一目标数据集包括第一训练样本;
获取所述第一训练样本输入所述第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比;
在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
10.一种数据处理方法,其特征在于,包括:
获取第一训练样本输入第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比,所述第一训练样本为训练数据集中的样本;
在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
11.根据权利要求10所述的方法,其特征在于,所述在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期包括:
若所述第一损失大于第一阈值,则将所述第一训练样本输入第二训练周期;或者,
若所述第一判错率大于第二阈值,则确定将所述第一训练样本输入第二训练周期。
12.根据权利要求11所述的方法,其特征在于,所述第一阈值为预设值,或者根据所述训练数据集的预设移除量和所有输入所述第一训练周期的样本的损失确定的阈值。
13.根据权利要求11所述的方法,其特征在于,所述第二阈值为预设值,或者根据所述训练数据集的预设移除量和输入所述第一训练周期的所有样本的判错率确定的阈值。
14.根据权利要求10所述的方法,其特征在于,所述若所述第一损失和/或所述第一判错率满足预设条件,则确定将所述第一训练样本输入第二训练周期包括:
根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;
若所述移除概率小于第三阈值,则确定将所述第一训练样本输入第二训练周期。
15.根据权利要求14所述的方法,其特征在于,所述第三阈值为预设值,或者根据输入所述第一训练周期的所有样本的损失、判错率、密度以及输入所述下一个训练周期的样本的预设移除量确定的阈值,所述密度为所述样本在根据样本类别标签确定的分类数据集中的密度。
16.根据权利要求10所述的方法,其特征在于,所述在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期包括:
获取输入所述第一训练周期的所有样本的损失的平均值和判错率的平均值;
根据所述第一损失是否小于所述损失的平均值,以及所述第一判错率是否小于所述判错率的平均值,确定所述第一训练样本的目标组别,所述目标组别包括第一分组、第二分组、第三分组或第四分组,所述第一分组的样本的损失大于或等于所述损失的平均值,所述第一分组的样本的判错率大于或等于所述判错率的平均值;所述第二分组的样本的损失大于或等于所述损失的平均值,所述第二分组的样本的判错率小于所述判错率的平均值;所述第三分组的样本的损失小于所述损失的平均值,所述第三分组的样本的判错率小于所述判错率的平均值;所述第四分组的样本的损失小于所述损失的平均值,所述第四分组的样本的判错率大于或等于所述判错率的平均值;
根据所述目标组别的样本量和预设的所述目标组别的样本移除比例,确定所述目标组别的样本移除量,所述第一分组的移除比例小于所述第二分组的移除比例和所述第四分组的移除比例,所述第三分组的移除比例大于所述第二分组的移除比例和所述第四分组的移除比例;
根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;
若所述第一训练样本的移除概率小于预设阈值,则确定将所述第一训练样本输入第二训练周期,所述概率阈值根据所述目标组别的所有样本的损失、判错率和所述目标组别的样本移除量确定。
17.一种数据处理装置,其特征在于,包括:
获取模块,用于获取原始数据集;
确定模块,用于根据所述原始数据集中样本的类别标签,确定多个分类数据集,所述多个分类数据集包括第一分类数据集和第二分类数据集;
所述确定模块,还用于确定所述第一分类数据集的第一离散程度和所述第二分类数据集的第二离散程度;
所述确定模块,还用于根据所述第一离散程度和所述第二离散程度确定所述第一分类数据集的第一样本删减比例和所述第二分类数据集的第二样本删减比例,若所述第一离散程度大于所述第二离散程度,则所述第一样本删减比例小于所述第二样本删减比例,若所述第一离散程度小于或等于所述第二离散程度,则所述第一样本删减比例大于或等于所述第二样本删减比例;
所述确定模块,还用于确定第一目标数据集,所述第一目标数据集包括所述第一分类数据集保留的样本和所述第二分类数据集保留的样本,所述第一分类数据集保留的样本根据所述第一样本删减比例、所述第一分类数据集的样本量和预设的第一样本删减总量确定,所述第二分类数据集保留的样本根据所述第二样本删减比例、所述第二分类数据集的样本量和预设的样本删减总量确定。
18.根据权利要求17所述的装置,其特征在于,所述第一离散程度为根据所述第一分类数据集中所有样本的特征向量确定的第一平均散度;所述第二离散程度为根据所述第二分类数据集中所有样本的特征向量确定的第二平均散度。
19.根据权利要求18所述的装置,其特征在于,
所述第一平均散度为第一相对熵KL散度或第一杰森香农JS散度的平均值,所述第一KL散度为所述第一分类数据集中任意两个样本的特征向量的KL散度,所述第一JS散度为所述第一分类数据集中任意两个样本的特征向量的JS散度;
所述第二平均散度为第二KL散度或第二JS散度的平均值,所述第二KL散度为所述第二分类数据集中任意两个样本的特征向量的KL散度,所述第二JS散度为所述第二分类数据集中任意两个样本的特征向量的JS散度。
20.根据权利要求18所述的装置,其特征在于,所述确定模块具体用于:
确定所述多个分类数据集中每个分类数据集的散度之和;
确定所述第一散度与所述散度之和的比例,以及所述第二散度与所述散度之和的比例;
根据所述第一散度与所述散度之和的比例、所述第二散度与所述散度之和的比例、所述第一分类数据集的样本量、所述第二分类数据集的样本量和预设的样本删减总量,确定所述第一样本删减比例与所述第二删减比例。
21.根据权利要求20所述的装置,其特征在于,所述预设的样本删减总量根据预设的总样本删减比例和所述原始数据集的样本总量确定。
22.根据权利要求17所述的装置,其特征在于,
所述第一离散程度与所述第一样本删减比例负相关,所述第二离散程度与所述第二样本删减比例负相关。
23.根据权利要求17所述的装置,其特征在于,所述确定模块具体用于:
根据所述第一样本删减比例和所述第一分类数据集的样本量确定所述第一分类数据集的第一样本删减量;
根据所述第二样本删减比例和所述第二分类数据集的样本量确定所述第二分类数据集的第二样本删减量;
基于所述第一样本删减量从所述第一分类数据集删减样本,以确定所述第一分类数据集保留的样本,所述第一分类数据集保留的样本的密度均值小于所述第一分类数据集的样本的密度均值;
基于所述第二样本删减量从所述第二分类数据集删减样本,以确定所述第二分类数据集保留的样本,所述第二分类数据集保留的样本的密度均值小于所述第二数据集的样本的密度均值;
所述密度均值为根据局部异常因子LOF算法计算的样本的异常度的均值。
24.根据权利要求17所述的装置,其特征在于,所述确定模块还用于:
将根据预设的第一样本删减总量确定的所述第一目标数据集输入神经网络训练模型的第一训练周期;
所述装置还包括:输入模块,用于将根据预设的第二样本删减总量确定的第二目标数据集输入神经网络训练模型的第二训练周期,所述预设的第一样本删减总量与所述预设的第二样本删减总量不同。
25.根据权利要求17至23中任一项所述的装置,其特征在于,所述装置还包括:
输入模块,用于将所述第一目标数据集输入神经网络训练模型的第一训练周期,所述第一目标数据集包括第一训练样本;
所述获取模块还用于,获取所述第一训练样本输入所述第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比;
所述输入模块还用于,在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
26.一种数据处理装置,其特征在于,包括:
获取模块,用于获取第一训练样本输入第一训练周期的第一损失和/或第一判错率,所述第一判错率为所述第一训练样本的错判次数与训练次数之比,所述第一训练样本为训练数据集中的样本;
输入模块,用于在所述第一损失和/或所述第一判错率满足预设条件的情况下,将所述第一训练样本输入第二训练周期,所述第二训练周期为所述第一训练周期的下一个训练周期。
27.根据权利要求26所述的装置,其特征在于,所述输入模块具体用于:
若所述第一损失大于第一阈值,则将所述第一训练样本输入第二训练周期;或者,
若所述第一判错率大于第二阈值,则确定将所述第一训练样本输入第二训练周期。
28.根据权利要求27所述的装置,其特征在于,所述第一阈值为预设值,或者根据所述训练数据集的预设移除量和所有输入所述第一训练周期的样本的损失确定的阈值。
29.根据权利要求27所述的装置,其特征在于,所述第二阈值为预设值,或者根据所述训练数据集的预设移除量和所有输入所述第一训练周期的样本的判错率确定的阈值。
30.根据权利要求26所述的装置,其特征在于,所述输入模块具体用于:
根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;
若所述移除概率小于第三阈值,则确定将所述第一训练样本输入第二训练周期。
31.根据权利要求30所述的装置,其特征在于,所述第三阈值为预设值,或者根据输入所述第一训练周期的所有样本的损失、判错率、密度以及输入所述下一个训练周期的样本的预设移除量确定的阈值,所述密度为所述样本在根据样本类别标签确定的分类数据集中的密度。
32.根据权利要求26所述的装置,其特征在于,
所述获取模块还用于,获取输入所述第一训练周期的所有样本的损失的平均值和判错率的平均值;
确定模块,用于根据所述第一损失是否小于所述损失的平均值,以及所述第一判错率是否小于所述判错率的平均值,确定所述第一训练样本的目标组别,所述目标组别包括第一分组、第二分组、第三分组或第四分组,所述第一分组的样本的损失大于或等于所述损失的平均值,所述第一分组的样本的判错率大于或等于所述判错率的平均值;所述第二分组的样本的损失大于或等于所述损失的平均值,所述第二分组的样本的判错率小于所述判错率的平均值;所述第三分组的样本的损失小于所述损失的平均值,所述第三分组的样本的判错率小于所述判错率的平均值;所述第四分组的样本的损失小于所述损失的平均值,所述第四分组的样本的判错率大于或等于所述判错率的平均值;
所述确定模块还用于,根据所述目标组别的样本量和预设的所述目标组别的样本移除比例,确定所述目标组别的样本移除量,所述第一分组的移除比例小于所述第二分组的移除比例和所述第四分组的移除比例,所述第三分组的移除比例大于所述第二分组的移除比例和所述第四分组的移除比例;
所述确定模块还用于,根据所述第一损失和所述第一判错率确定所述第一训练样本的移除概率;
所述确定模块还用于,若所述第一训练样本的移除概率小于预设阈值,则确定将所述第一训练样本输入第二训练周期,所述概率阈值根据所述目标组别的所有样本的损失、判错率和所述目标组别的样本移除量确定。
33.一种数据处理装置,其特征在于,包括:
存储器,用于存储指令;
处理器,用于执行所述存储器中的指令,使得所述数据处理装置执行权利要求1至16中任一项所述的方法。
34.一种计算机程序产品,其特征在于,所述计算机程序产品包括指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至16中任一项所述的方法。
35.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至16中任一项所述的方法。
CN201911066499.5A 2019-09-18 2019-11-04 数据处理方法和数据处理设备 Pending CN112529172A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910883282 2019-09-18
CN2019108832827 2019-09-18

Publications (1)

Publication Number Publication Date
CN112529172A true CN112529172A (zh) 2021-03-19

Family

ID=74974625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911066499.5A Pending CN112529172A (zh) 2019-09-18 2019-11-04 数据处理方法和数据处理设备

Country Status (1)

Country Link
CN (1) CN112529172A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554131A (zh) * 2021-09-22 2021-10-26 四川大学华西医院 医学图像处理和分析方法、计算机设备、系统和存储介质
CN117807434A (zh) * 2023-12-06 2024-04-02 中国信息通信研究院 一种通信数据集处理方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831432A (zh) * 2012-05-07 2012-12-19 江苏大学 一种适用于支持向量机训练的冗余数据约减方法
CN103618744A (zh) * 2013-12-10 2014-03-05 华东理工大学 一种基于快速knn算法的入侵检测方法
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108710907A (zh) * 2018-05-15 2018-10-26 苏州大学 手写体数据分类方法、模型训练方法、装置、设备及介质
CN109325118A (zh) * 2018-09-03 2019-02-12 平安科技(深圳)有限公司 不平衡样本数据预处理方法、装置和计算机设备
CN109711551A (zh) * 2018-12-28 2019-05-03 北京旷视科技有限公司 数据处理方法及装置
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN109800807A (zh) * 2019-01-18 2019-05-24 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831432A (zh) * 2012-05-07 2012-12-19 江苏大学 一种适用于支持向量机训练的冗余数据约减方法
CN103618744A (zh) * 2013-12-10 2014-03-05 华东理工大学 一种基于快速knn算法的入侵检测方法
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108710907A (zh) * 2018-05-15 2018-10-26 苏州大学 手写体数据分类方法、模型训练方法、装置、设备及介质
CN109325118A (zh) * 2018-09-03 2019-02-12 平安科技(深圳)有限公司 不平衡样本数据预处理方法、装置和计算机设备
CN109740750A (zh) * 2018-12-17 2019-05-10 北京深极智能科技有限公司 数据收集方法及装置
CN109711551A (zh) * 2018-12-28 2019-05-03 北京旷视科技有限公司 数据处理方法及装置
CN109800807A (zh) * 2019-01-18 2019-05-24 北京市商汤科技开发有限公司 分类网络的训练方法及分类方法和装置、电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554131A (zh) * 2021-09-22 2021-10-26 四川大学华西医院 医学图像处理和分析方法、计算机设备、系统和存储介质
CN117807434A (zh) * 2023-12-06 2024-04-02 中国信息通信研究院 一种通信数据集处理方法和装置
CN117807434B (zh) * 2023-12-06 2024-07-16 中国信息通信研究院 一种通信数据集处理方法和装置

Similar Documents

Publication Publication Date Title
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
US11915104B2 (en) Normalizing text attributes for machine learning models
US20180260531A1 (en) Training random decision trees for sensor data processing
CN107958230B (zh) 人脸表情识别方法及装置
CN110349147B (zh) 模型的训练方法、眼底黄斑区病变识别方法、装置及设备
CN112889042A (zh) 机器学习中超参数的识别与应用
CN107368613B (zh) 短文本情感分析方法及装置
CN106919957B (zh) 处理数据的方法及装置
CN109918498B (zh) 一种问题入库方法和装置
CN109726391B (zh) 对文本进行情感分类的方法、装置及终端
CN112685324B (zh) 一种生成测试方案的方法及系统
CN111930610B (zh) 软件同源性检测方法、装置、设备及存储介质
CN103559205A (zh) 基于MapReduce的并行特征选择方法
CN112529172A (zh) 数据处理方法和数据处理设备
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN110809768B (zh) 数据清洗系统和方法
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
CN107992495B (zh) 高维数据集的数据可视化分析方法及装置
CN110688411A (zh) 一种文本识别方法及装置
US20120323926A1 (en) Efficient Optimization over Uncertain Data
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN107832288B (zh) 中文词语语义相似度的度量方法及装置
CN114693052A (zh) 风险预测模型的训练方法、装置、计算设备和介质
Hasanbelliu et al. Online learning using a Bayesian surprise metric
WO2020167156A1 (ru) Способ отладки обученной рекуррентной нейронной сети

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination