CN111652259B - 一种清洗数据的方法及系统 - Google Patents
一种清洗数据的方法及系统 Download PDFInfo
- Publication number
- CN111652259B CN111652259B CN201910302491.8A CN201910302491A CN111652259B CN 111652259 B CN111652259 B CN 111652259B CN 201910302491 A CN201910302491 A CN 201910302491A CN 111652259 B CN111652259 B CN 111652259B
- Authority
- CN
- China
- Prior art keywords
- category
- picture
- confidence coefficient
- threshold value
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000013145 classification model Methods 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 12
- 230000002411 adverse Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习技术领域,公开了一种数据清洗的方法,包括:提供一原始图片数据集;使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率;将所有的类别准确率小于一准确率阈值的类别所对应的图片构成一待清洗样本集;获取所述待清洗样本集中的每一张图片的最大置信度对应的第一类别,以及较大置信度对应的第二类别;设置第一置信度阈值和第二置信度阈值,根据所述最大置信度和较大置信度以及清洗规则,将所述待清洗样本集分为正样本、负样本、待确认三个类别。相应的,本发明还公开了一种数据清洗系统。本发明通过自动化地对训练集样本进行数据清洗,可以获得更干净的样本数据集。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种清洗数据的方法及系统。
背景技术
菜品识别在健康方面有着重要的作用,通过自动识别菜品的名称可以获取菜品的营养、热量以及对健康的影响等信息。为了使菜品识别的功能发挥足够的作用,必须识别足够多种类的菜品。利用深度学习的方法进行菜品的识别和分类,一般可以获得相对其它机器学习算法更高的准确率,但是深度学习算法需要海量的样本数据进行训练,样本数据的获取以及质量对训练结果有着很大的影响。由于菜品种类繁多,不可避免地会出有不同类别的菜品出现非常类似的情况,从而影响最终训练出模型的精度。要获得更精确的训练模型,必须减少不同种类菜品之间的相似干扰和相互交叉。
目前常用的清洗方法有:
1、采用人工清洗的方法,需要耗费大量的人力和时间对菜品的分类进行定义、人工选择以及人工审核等。此外,由于不同人对一些菜品的定义或多或少或有一定的偏差,带有一定的主观性,最终导致不同种类的样品中的部分样本会产生交叉或者相似干扰。
2、基于图像相似度进行数据清洗和去重,但是对于菜品图片,其相似性主要体现在语义相似层次,普通的纹理、颜色、直方图、特征点等表达能力有限,不能很好地匹配出同一种菜品的图片。
3、基于多次深度学习训练迭代的清洗方法,采用深度学习的方法可以训练处表达能力更强的特征,但前提是需要提供比较干净的样本数据进行训练,要获取相互之间完全没有交叉和干扰的菜品数据难度非常大,所以直接采用深度学习训练特征进行相似干扰图片清洗比较难以实现。
公布号为CN109241903A的申请专利公开了一种样本数据清洗方法,所述方法包括:获取初始图像集,将初始图像集输入到特征分类模型进行识别,得到特征识别结果,根据所述特征识别结果获取初始训练集,所述初始训练集包括初始训练图像和每一初始训练图像对应的标注数据;根据所述标注数据对所述初始训练图像进行分类,得到分类训练集;对所述分类训练集进行数据清洗,得到目标训练集。
因此,如何能够自动化地对训练集样本进行数据清洗,获取更干净的样本数据集,成为有必要解决的技术问题。
发明内容
本发明的目的在于提供一种清洗数据的方法及系统,通过自动化地对训练集样本进行数据清洗,减少相似菜品之间的干扰,获得更干净的样本数据集。
为实现上述目的,本发明提供了一种清洗数据的方法,所述方法包括:提供一原始图片数据集,所述原始图片数据集包括多种类别的图片;使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率;设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集;使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别;设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗。通过自动化地对训练集样本进行数据清洗,减少相似菜品之间的干扰,获得更干净的样本数据集。
可选的,所述步骤S1包括:对所述原始图片数据集进行清洗预处理的步骤,所述清洗预处理的步骤包括去重和以相似度阈值进行去相似度。对原始图片数据集进行预先清洗,进一步保证样本数据干净。
可选的,所述步骤S2包括:从所述原始图片数据集中的每一种类别所对应的图片中选取一预设比例的图片,将所有选取的图片构成一训练集;根据神经网络算法,对所述训练集进行训练,构建一个多分类模型。所述步骤S2中的获取每一种类别的类别准确率的步骤包括:所述原始图片数据集中包括多张真实类别为第三类别的图片;使用所述多分类模型对所述多张图片进行类别识别,获取每一张图片被识别的多个预测类别,以及每个预测类别对应的置信度,标记对应最高置信度的类别为最终类别;若所述最终类别与第三类别一致,则所述图片的类别识别正确,否则,则所述图片的类别识别错误;统计类别识别正确的图片数量,并与所述第三类别对应的总图片数量相除,得到所述第三类别对应的类别准确率。
可选的,所述步骤S5中待确认样本的数据的清洗规则包括:当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别不一致时,判断该图片的类别为第一类别的图片;当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别一致时,若最大置信度与较大置信度的差值大于第三阈值,则该图片判断为正样本数据,否则,该图片的类别为第二类别的图片。根据该技术方案,可以高效地去除对训练效果有不利影响的数据,并重新对训练数据进行合理划分。
可选的,所述步骤S5中待确认样本的数据清洗规则还包括:统计类别为第一类别的所有图片的数量;若所述第一类别的数量小于一数量阈值,则将第一类别对应的所有图片判断为负样本数据;若所述第一类别的数量大于所述数量阈值,则对第一类别对应的所有图片进行人工清洗。所述步骤S5中待确认样本的数据清洗规则还包括:统计类别为第二类别的所有图片的数量;若所述第二类别的数量小于一数量阈值,则将第二类别对应的所有图片判断为负样本数据;若所述第二类别的数量大于所述数量阈值,则对第二类别对应的所有图片进行人工清洗。对于负样本数据可直接自动删除,只有少量的图片需要人工清洗,极大降低人工清洗的工作量。
为实现上述目的,本发明提供了一种清洗数据系统,所述系统包括:数据集模块,用于提供一原始图片数据集,所述原始图片数据集包括多种类别的图片;多分类模型模块,用于使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率;统计模块,用于设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集;识别模块,用于使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别;清洗模块,用于设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片,判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗。通过自动化地对训练集样本进行数据清洗,减少相似菜品之间的干扰,获得更干净的样本数据集。
可选的,所述清洗模块具体包括:第一判断单元,用于当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别不一致时,判断该图片的类别为第一类别的图片;第二判断单元,用于当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别一致时,若最大置信度与较大置信度的差值大于第三阈值,则该图片判断为正样本数据,否则,该图片的类别为第二类别的图片。
可选的,所述清洗模块还具体包括:第一统计单元,用于统计类别为第二类别的所有图片的数量;第一比较单元,用于若所述第二类别的数量小于一数量阈值,则将第二类别对应的所有图片判断为负样本数据否则,对第二类别对应的所有图片进行人工清洗;第二统计单元,用于统计类别为第二类别的所有图片的数量;第二比较单元,用于若所述第二类别的数量小于一数量阈值,则将第二类别对应的所有图片判断为负样本数据,否则,对第二类别对应的所有图片进行人工清洗。
与现有技术相比,本发明一种清洗数据的方法及系统所带来的有益效果为:通过自动化地对训练集样本进行数据清洗,减少相似菜品之间的干扰,高效地去除对训练效果有不利影响和类别模糊的数据,并重新对训练数据进行合理划分,获得更干净的样本数据集,从而训练出精度更高的分类模型;极大的减少了人工清洗的工作量,高效地提升训练出模型的准确率。
附图说明
图1为根据本发明的一个实施例中清洗数据的方法的流程示意图。
图2为根据本发明的一个实施例中清洗数据的系统的组成结构图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1示的本发明的一实施例,本发明提供一种清洗数据的方法,所述方法包括:
S1、提供一原始图片数据集,所述原始图片数据集包括多种类别的图片;
S2、使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率;
S3、设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集;
S4、使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别;
S5、设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗。
步骤S1为:提供一原始图片数据集,所述原始图片数据集包括多种类别的图片。所述原始图片数据集可通过网络爬虫来获取,该原始图片数据集中包括多种类别的图片。比如,每一种类别的图片数量大于等于500张。根据本发明的一具体实施例,所述步骤S1包括:对所述原始图片数据集进行清洗预处理的步骤,所述清洗预处理的步骤包括去重和以相似度阈值进行去相似度。所述原始图片数据集进行去重就是除重复数据。以相似度阈值进行去相似度是指去除相似度大于阈值的近似数据,比如,可通过消息摘要第五版校验进行去重,通过灰度直方图相似度匹配去除近似数据,对原始图片数据集进行预先清洗,进一步保证样本数据干净。
步骤S2为:使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率。根据本发明的一具体实施例,所述步骤S2包括:从所述原始图片数据集中的每一种类别所对应的图片中选取一预设比例的图片,将所有选取的图片构成一训练集;根据神经网络算法,对所述训练集进行训练,构建一个多分类模型。比如,所述预设比例设置为70%,从所述原始图片数据集中的每一中类别所对应的图片中选取70%的图片,将所有选取的图片构成一个训练集。所述神经网络算法为现有技术中的神经网络算法,比如,深度卷积神经网络模型。该多分类模型只需加载一次模型,能够更准确区分各个分类之间的差异。该多分类模型用于获取每一种类别的类别准确率。
根据本发明的一具体实施例,所述步骤S2中的获取每一种类别的类别准确率的步骤包括:所述原始图片数据集中包括多张真实类别为第三类别的图片。使用所述多分类模型对所述多张图片进行类别识别,获取每一张图片被识别的多个预测类别,以及每个预测类别对应的置信度,标记对应最高置信度的类别为最终类别。通过所述多分类模型每一张测试图片进行图像识别,每一张测试图片可以被识别为多个预测类别,并设置每一个预测类别的置信度。即每一张测试图片对应多个预测类别,每一个预测类别对应一个置信度。若所述最终类别与第三类别一致,则所述图片的类别识别正确,否则,则所述图片的类别识别错误;统计类别识别正确的图片数量,并与所述第三类别对应的总图片数量相除,得到所述第三类别对应的类别准确率。在所述原始图片数据集中包括多种类别的图片,根据上述步骤,可以获取每一种类别对应的类别准确率。
步骤S3为:设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集。类别准确率的范围为[0,1]。比如,设置准确率阈值为0.7,根据步骤S2中获取的每一种类别的准确率,统计类别准确率小于0.7的类别,在所述原始图片数据集中,将类别准确率小于0.7的类别所对应的所有图片构成一待清洗样本集。类别准确率大于所述准确率阈值的类别,说明该类别对应的图片识别率高,该类别的图片样本数据比较干净。而类别准确率小于所述准确率阈值的类别,说明该类别对应的图片识别率低,该类别的图片样本数据存在着类别模糊的图片,需要做进一步的数据清洗。
步骤S4为:使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别。通过所述多分类模型,对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片被识别的多个预测类别,以及每个预测类别对应的置信度,将每一图片的所有置信度从大到小排列,得到最大置信度所对应的第一类别,以及较大置信度对应的第二类别。
步骤S5为:设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗。根据本发明的一具体实施例,所述步骤S5中待确认样本的数据清洗规则具体包括:当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别不一致时,判断该图片的类别为第一类别的图片;当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别一致时,若最大置信度与较大置信度的差值大于第三阈值,则该图片判断为正样本数据,否则,该图片的类别为第二类别的图片。根据该技术方案,可以高效地去除对训练效果有不利影响的数据,并重新对训练数据进行合理划分。
根据本发明的一具体实施例,所述步骤S5中待确认样本的数据清洗规则还包括:统计类别为第一类别的所有图片的数量;若所述第一类别的数量小于一数量阈值,则将第一类别对应的所有图片判断为负样本数据;若所述第一类别的数量大于所述数量阈值,则对第一类别对应的所有图片进行人工清洗。根据本发明的一具体实施例,所述步骤S5中待确认样本的数据清洗规则还包括:统计类别为第二类别的所有图片的数量;若所述第二类别的数量小于所述数量阈值,则将第二类别对应的所有图片判断为负样本数据;若所述第二类别的数量大于所述数量阈值,则对第二类别对应的所有图片进行人工清洗。对于负样本数据可直接自动删除,只有少量的图片需要人工清洗,极大降低人工清洗的工作量。
根据本发明的一具体实施例,假设一张图片被识别的最大置信度为P1,P1对应的类别为TC1,该图片被识别的较大置信度为P2,P2对应的类别为TC2,该图片的真实类别为GT。设置第一置信度阈值为0.2,第二置信度阈值为0.6,第三阈值设置为0.1,数量阈值设置为10。当P1小于0.2时,则表明该图片的分类特征不明显,将该图片判断为负样本数据。当P1大于0.6并且GT与TC1一致时,则表明该图片GT类别特征明显,将该图片判断为正样本数据。当P1大于0.2并且小于0.6时,以及TC1与GT不一致时,将该图片判断为类别为TC1的图片。当P1大于0.2并且小于0.6时,以及当TC1与GT一致时,若P1-P2大于0.1,则该图片判断为正样本数据;当P1大于0.2并且小于0.6时,以及当TC1与GT一致时,若P1-P2小于0.1时,则将图片判断为类别为TC2的图片。对类别为TC1的图片以及类别为TC2的图片,做进一步的数据清洗。具体地,当类别为TC1的图片的数量小于10时,则表明类别为TC1的图片对真实类别GT的特征影响较小,将类别为TC1的所有图片重新判断为负样本数据。当类别为TC1的图片的数量大于10时,则表明类别为TC1的图片需要人工清洗,通过人工判断是否与图片的真实类别一致,根据判断结果来选择是保留还是删除。当类别为TC2的图片的数量小于10时,则表明类别为TC2的图片对真实类别GT的特征影响较小,将类别为TC2的所有图片重新判断为负样本数据。当类别为TC2的图片的数量大于10时,则表明类别为TC2的图片需要人工清洗,通过人工判断是否与图片的真实类别一致,根据判断结果来选择是保留还是删除。对于负样本数据,可直接自动删除。
根据该技术方案,通过自动化地对训练集样本进行数据清洗,减少相似菜品之间的干扰,高效地去除对训练效果有不利影响和类别模糊的数据,并重新对训练数据进行合理划分,获得更干净的样本数据集,从而训练出精度更高的分类模型;极大的减少了人工清洗的工作量,高效地提升训练出模型的准确率。
图2所示,在另外一个实施例中,本发明还提供一种清洗数据系统,所述系统包括:
数据集模块20,用于提供一原始图片数据集,所述原始图片数据集包括多种类别的图片;
多分类模型模块21,用于使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率;
统计模块22,用于设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集;
识别模块23,用于使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别;
清洗模块24,用于设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗。
数据集模块20用于提供一原始图片数据集,所述原始图片数据集包括多种类别的图片。所述原始图片数据集可通过网络爬虫来获取,该原始图片数据集中包括多种类别的图片。
多分类模型模块21用于使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率。具体地,从所述原始图片数据集中的每一种类别所对应的图片中选取一预设比例的图片,将所有选取的图片构成一训练集;根据神经网络算法,对所述训练集进行训练,构建一个多分类模型。该多分类模型用于获取每一种类别的类别准确率。在所述原始图片数据集中包括多种类别的图片,可以获取每一种类别对应的类别准确率。
统计模块22用于设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集。类别准确率大于所述准确率阈值的类别,说明该类别对应的图片识别率高,该类别的图片样本数据比较干净。而类别准确率小于所述准确率阈值的类别,说明该类别对应的图片识别率低,该类别的图片样本数据存在着类别模糊的图片,需要做进一步的数据清洗。
识别模块23用于使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别。通过所述多分类模型,对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片被识别的多个预测类别,以及每个预测类别对应的置信度,将每一图片的所有置信度从大到小排列,得到最大置信度所对应的第一类别,以及较大置信度对应的第二类别。
清洗模块24用于设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗。
根据本发明的一具体实施例,所述清洗模块具体包括第一判断单元和第二判断单元。第一判断单元用于当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别不一致时,判断该图片的类别为第一类别的图片。第二判断单元用于当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别一致时,若最大置信度与较大置信度的差值大于第三阈值,则该图片判断为正样本数据,否则,该图片的类别为第二类别的图片。根据该技术方案,可以高效地去除对训练效果有不利影响的数据,并重新对训练数据进行合理划分。
根据本发明的一具体实施例,所述清洗模块具体还包括第一统计单元、第一比较单元、第二统计单元和第二比较单元。第一统计单元用于统计类别为第二类别的所有图片的数量。第一比较单元用于若所述第二类别的数量小于一数量阈值,则将第二类别对应的所有图片判断为负样本数据,否则,对第二类别对应的所有图片进行人工清洗。第二统计单元用于统计类别为第二类别的所有图片的数量。第二比较单元用于若所述第二类别的数量小于一数量阈值,则将第二类别对应的所有图片判断为负样本数据,否则,对第二类别对应的所有图片进行人工清洗。
根据该技术方案,通过自动化地对训练集样本进行数据清洗,减少相似菜品之间的干扰,高效地去除对训练效果有不利影响和类别模糊的数据,并重新对训练数据进行合理划分,获得更干净的样本数据集,从而训练出精度更高的分类模型;极大的减少了人工清洗的工作量,高效地提升训练出模型的准确率
虽然以上通过附图和实施例对本发明进行了详细描述,但是这样的图示和描述应被理解为是说明性或示例性而非限制性的。本发明并不局限于所公开的实施例。在权利要求中,词语“包括”并不排除其它部件或步骤,并且“一个”或特定“多个”应当被理解为至少一个或至少特定多个。权利要求中的任何参考标记都不应当被理解为对其范围加以限制。通过研习附图、说明书和所附权利要求,针对上述实施例的其它变化形式可以由本领域技术人员在无需创造性劳动即可理解并实施,而这些实施方式仍将落入本发明所附权利要求书的范围之内。
Claims (5)
1.一种清洗数据的方法,其特征在于,所述方法包括步骤:
S1、提供一原始图片数据集,所述原始图片数据集包括多种类别的图片;
S2、使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率;
S3、设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集;
S4、使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别;
S5、设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗;
所述步骤S5中待确认样本的数据清洗规则包括:
当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别不一致时,判断该图片的类别为第一类别的图片;
当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别一致时,若最大置信度与较大置信度的差值大于第三阈值,则该图片判断为正样本数据,否则,该图片的类别为第二类别的图片;
统计类别为第一类别的所有图片的数量,若所述第一类别的数量小于一数量阈值,则将第一类别对应的所有图片判断为负样本数据,若所述第一类别的数量大于所述数量阈值,则对第一类别对应的所有图片进行人工清洗;统计类别为第二类别的所有图片的数量,若所述第二类别的数量小于所述数量阈值,则将第二类别对应的所有图片判断为负样本数据,若所述第二类别的数量大于所述数量阈值,则对第二类别对应的所有图片进行人工清洗。
2.如权利要求1所述的清洗数据的方法,其特征在于,所述步骤S1包括:对所述原始图片数据集进行清洗预处理的步骤,所述清洗预处理的步骤包括去重和以相似度阈值进行去相似度。
3.如权利要求1所述的清洗数据的方法,其特征在于,所述步骤S2包括:从所述原始图片数据集中的每一种类别所对应的图片中选取一预设比例的图片,将所有选取的图片构成一训练集;
根据神经网络算法,对所述训练集进行训练,构建一个多分类模型。
4.如权利要求3所述的清洗数据的方法,其特征在于,所述步骤S2中的获取每一种类别的类别准确率的步骤包括:
所述原始图片数据集中包括多张真实类别为第三类别的图片;
使用所述多分类模型对所述多张图片进行类别识别,获取每一张图片被识别的多个预测类别,以及每个预测类别对应的置信度,标记对应最高置信度的类别为最终类别;
若所述最终类别与第三类别一致,则所述图片的类别识别正确,否则,则所述图片的类别识别错误;
统计类别识别正确的图片数量,并与所述第三类别对应的总图片数量相除,得到所述第三类别对应的类别准确率。
5.一种清洗数据系统,其特征在于,所述系统执行如权利要求1-4任一所述的清洗数据方法,所述系统包括:
数据集模块,用于提供一原始图片数据集,所述原始图片数据集包括多种类别的图片;
多分类模型模块,用于使用一多分类模型对所述原始图片数据集进行准确率测试,获取每一种类别的类别准确率;
统计模块,用于设置一准确率阈值,统计类别准确率小于所述准确率阈值的类别,将所有的类别准确率小于所述准确率阈值的类别所对应的图片构成一待清洗样本集;
识别模块,用于使用所述多分类模型对所述待清洗样本集中的每一张图片进行类别识别,获取每一张图片中最大置信度对应的第一类别,以及较大置信度对应的第二类别;
清洗模块,用于设置第一置信度阈值和第二置信度阈值,将所述待清洗样本集分为正样本、负样本、待确认样本三个类别,其中,所述待清洗样本集中图片的最大置信度小于所述第一置信度阈值的图片判断为负样本数据,最大置信度大于所述第二置信度阈值且所述第一类别与图片的真实类别一致的图片判断为正样本数据,最大置信度在所述第一置信度阈值和所述第二置信度阈值之间的图片判断为待确认样本,并根据所述较大置信度、对应的第二类别以及一预设的清洗规则,对所述待确认样本进行数据清洗;所述清洗模块具体包括:
第一判断单元,用于当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别不一致时,判断该图片的类别为第一类别的图片;
第二判断单元,用于当图片的最大置信度在所述第一置信度阈值和所述第二置信度阈值之间时,并且第一类别与该图片的真实类别一致时,若最大置信度与较大置信度的差值大于第三阈值,则该图片判断为正样本数据,否则,该图片的类别为第二类别的图片;
第一统计单元,用于统计类别为第二类别的所有图片的数量;
第一比较单元,用于若所述第二类别的数量小于一数量阈值,则将第二类别对应的所有图片判断为负样本数据否则,对第二类别对应的所有图片进行人工清洗;
第二统计单元,用于统计类别为第二类别的所有图片的数量;
第二比较单元,用于若所述第二类别的数量小于一数量阈值,则将第二类别对应的所有图片判断为负样本数据,否则,对第二类别对应的所有图片进行人工清洗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910302491.8A CN111652259B (zh) | 2019-04-16 | 2019-04-16 | 一种清洗数据的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910302491.8A CN111652259B (zh) | 2019-04-16 | 2019-04-16 | 一种清洗数据的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652259A CN111652259A (zh) | 2020-09-11 |
CN111652259B true CN111652259B (zh) | 2024-03-08 |
Family
ID=72346274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910302491.8A Active CN111652259B (zh) | 2019-04-16 | 2019-04-16 | 一种清洗数据的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652259B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158889A (zh) * | 2021-04-15 | 2021-07-23 | 上海芯翌智能科技有限公司 | 数据清洗、训练方法及装置、计算机可读存储介质、终端 |
CN114742171A (zh) * | 2022-04-24 | 2022-07-12 | 中山大学 | 一种本征正交分解样本压缩方法、装置及存储介质 |
CN117041168A (zh) * | 2023-10-09 | 2023-11-10 | 常州楠菲微电子有限公司 | QoS队列调度实现方法、装置、存储介质及处理器 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017202006A1 (zh) * | 2016-05-25 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、计算机存储介质 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108874900A (zh) * | 2018-05-24 | 2018-11-23 | 四川斐讯信息技术有限公司 | 一种样本图片数据集合的获取方法和系统 |
CN109165665A (zh) * | 2018-07-06 | 2019-01-08 | 上海康斐信息技术有限公司 | 一种类别分析方法及系统 |
CN109241397A (zh) * | 2018-07-06 | 2019-01-18 | 四川斐讯信息技术有限公司 | 一种清洗数据的方法和装置 |
WO2019041406A1 (zh) * | 2017-08-28 | 2019-03-07 | 平安科技(深圳)有限公司 | 不雅图片识别方法、终端、设备及计算机可读存储介质 |
-
2019
- 2019-04-16 CN CN201910302491.8A patent/CN111652259B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017202006A1 (zh) * | 2016-05-25 | 2017-11-30 | 腾讯科技(深圳)有限公司 | 数据处理方法和装置、计算机存储介质 |
WO2019041406A1 (zh) * | 2017-08-28 | 2019-03-07 | 平安科技(深圳)有限公司 | 不雅图片识别方法、终端、设备及计算机可读存储介质 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN108874900A (zh) * | 2018-05-24 | 2018-11-23 | 四川斐讯信息技术有限公司 | 一种样本图片数据集合的获取方法和系统 |
CN109165665A (zh) * | 2018-07-06 | 2019-01-08 | 上海康斐信息技术有限公司 | 一种类别分析方法及系统 |
CN109241397A (zh) * | 2018-07-06 | 2019-01-18 | 四川斐讯信息技术有限公司 | 一种清洗数据的方法和装置 |
Non-Patent Citations (1)
Title |
---|
杨建林 ; 刘扬 ; .基于关联分类算法的PU学习研究.数据分析与知识发现.2017,(11),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111652259A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652259B (zh) | 一种清洗数据的方法及系统 | |
CN105868243A (zh) | 信息处理方法及装置 | |
CN112765235A (zh) | 基于特征识别和大数据分析的人力资源智能管理系统及云管理服务器 | |
TW201820176A (zh) | 分類方法、分類模組及電腦程式產品 | |
CN111680603A (zh) | 一种菜品检测和识别方法 | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN115660262B (zh) | 一种基于数据库应用的工程智慧质检方法、系统及介质 | |
CN111652257A (zh) | 一种样本数据清洗方法及系统 | |
CN112037222A (zh) | 一种神经网络模型的自动更新方法及系统 | |
CN115879017A (zh) | 一种电力敏感数据自动化分类分级方法、装置及存储介质 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN111915368A (zh) | 汽车行业客户id识别系统、方法及介质 | |
CN110309737A (zh) | 一种应用于香烟柜台的信息处理方法、装置及系统 | |
Alasalmi et al. | Classification uncertainty of multiple imputed data | |
CN114077877B (zh) | 一种新增垃圾识别方法、装置、计算机设备及存储介质 | |
CN115936748A (zh) | 一种商业大数据分析方法及系统 | |
CN111639117B (zh) | 基于数据加工的业务处理方法及装置 | |
CN113434680A (zh) | 基于坐席数据的用户意愿分析方法、装置、电子设备 | |
CN112633037A (zh) | 一种对象监测方法、装置、存储介质及电子设备 | |
CN110569277A (zh) | 一种配置数据信息自动识别与归类方法及系统 | |
Xu et al. | Efficient detection of communities with significant overlaps in networks: Partial community merger algorithm | |
CN115761517B (zh) | 一种基于神经网络和物联网的农业场景识别方法 | |
CN110598125A (zh) | 一种评估关键意见领袖投入的方法及装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |